Wednesday, October 16, 2013

JARINGAN MULTIMEDIA

Resume Digital Audio Coding





Desy Candra Novitasari
5110100045 




Jurusan Teknik Informatika
Fakultas Teknologi Informasi

Institut Teknologi Sepuluh Nopember




Digital Audio Coding

Pada tahun 1979, Philips dan Sony membentuk gugus tugas gabungan insinyur untuk merancang disk audio digital baru untuk merekam audio musik dalam format digital. Setelah satu tahun percobaan dan diskusi, gugus tugas menghasilkan Compact Disk (CD) standar.
Tidak praktis untuk membuat satu model untuk setiap mekanisme generasi suara. Fakta ini membawa kita untuk menginvestigasi mekanisme penerimaan suara, bukan generasi suara.
Sistem pendengaran manusia, yang terdiri dari telinga dan otak, memproses sinyal audio yang masuk dalam dua cara yang berbeda yaitu fisiologis dan psikologis. Telinga kita terdiri dari tiga komponen fisiologis mendasar yaitu telinga bagian dalam, tengah dan luar dengan fungsi yang berbeda pula.


3. 1 Human Psychoacoustics
Sebagaimana disebutkan di atas, persepsi manusia suara melibatkan beberapa efek psikologis. Sebagai contoh, telinga manusia kurang lebih merespon logaritmik  secara subyektif untuk meningkatkan volume. Pendengaran manusia memiliki dynamic range sekitar 110 desibel (dB).

3.1.1 Hearing Sensitivity
Koklea telinga kita melakukan analisis perkiraan frekuensi dalam kisaran antara 20 Hz sampai 20 kHz, ini mirip dengan Fourier transform sempurna dengan resolusi frekuensi yang terbatas. SPL (Sound Pressure Level) didefinisikan secara matematis sebagai :

untuk kuantisasi audio sampel sedemikian rupa untuk kompres data, kita harus memilih cukup bit per sampel untuk mengurangi kebisingan kuantisasi yang dihasilkan ke tingkat yang memuaskan.
     
      3.1.2 Frequency Masking
Lebih khusus lagi, mari kita memainkan nada Hz 250 (yang masker) pada tingkat yang kuat tetap (65 dB) dan memainkan nada tes kedua (misalnya, 180 Hz) pada tingkat yang lebih rendah secara bersamaan dan meningkatkan tingkat sampai hanya dibedakan (ambang pendengaran). Hal ini dapat diamati bahwa suara keras (masker) akan mendistorsi ambang mutlak pendengaran sehubungan dengan logaritma dari frekuensi dalam kHz, lihat Gambar 3.4, dan membuat suara lebih tenang (suara masked), yang semula terdengar, tak terdengar. Efek ini disebut "frekuensi masking".

      3.1.3 Temporal Masking
Suara lemah yang dipancarkan segera setelah akhir dari suara keras tertutup oleh
Suara yang lebih keras.


Subband signal processing and polyphase filter implementation
Karena sifat masking frekuensi pendengaran manusia, representasi terbaik dari audio adalah representasi frekuensi domain, yang diperoleh dengan menggunakan subband atau mengubah filter bank. Untuk menganalisis psychoacoustics persepsi telinga manusia dari sinyal audio, analisis masking dan penugasan bitrate harus disiapkan dan diproses dalam bingkai dengan panjang yang telah ditentukan sinyal audio.

Dalam pelaksanaan yang sebenarnya coding audio, seperti MPEG audio, codec membagi setiap frame dari sinyal audio ke 32 sama-lebarnya (seragam) frekuensi subbands daripada band – band  kritis yang tidak seragam, karena penggunaan polyphase struktur filter relatif sederhana.

MPEG-1 audio layers
Kompresi MPEG-1 audio yang menerima audio dengan tingkat sampling dari 32, 44,1, atau 48 kHz. Dikompresi bit stream dapat mendukung satu atau dua saluran audio dan memiliki salah satu dari beberapa standar bitrate mulai 32-224 kbps per channel, setara dengan rasio kompresi 24-2,7. Hal ini dipercaya bahwa dengan 6: 1 rasio kompresi (yaitu, 16-bit stereo sampel di 48 kHz sehingga dikompresi hingga 256 kbps) dan kondisi mendengarkan yang optimal, pendengar ahli tidak bisa membedakan antara klip audio kode dan asli.
MPEG-1 audio yang menawarkan tiga lapisan independen kompresi, yaitu :
 ü  Layer 1 memiliki kompleksitas terendah dan bitrate tertinggi, mulai 32-224 kbps per channel dengan target bitrate 192 kbps per saluran.
 ü  Layer 2 memiliki kompleksitas menengah dan ditargetkan bitrate sekitar 128 kbps per saluran.
 ü  Layer 3 memiliki kompleksitas tertinggi dan menawarkan kualitas audio terbaik, terutama untuk bitrate sekitar 64 kbps per saluran.

v  Polyphase implementation of MPEG-1 filter bank

v  MPEG-1 audio psychoacoustics
Psychoacoustics audio MPEG-1 mengambil keuntungan dari karakteristik tergantung pada frekuensi sistem pendengaran manusia, karena ambang masking (untuk masking frekuensi dan / atau temporal masking) pada setiap frekuensi yang diberikan semata-mata bergantung pada energi sinyal di dalam lingkungan yang terbatas-bandwidth frekuensi itu, untuk kompresi yang paling efisien.

Lebih khusus lagi, setiap band harus dikuantisasi dengan tingkat tidak lebih dari ini diperlukan untuk membuat kebisingan kuantisasi tak terdengar. Encoder menggunakan posisi frekuensi dan kenyaringan yang sesuai untuk memutuskan cara terbaik untuk mewakili sinyal audio input dengan jumlah terbatas bit kode.

v  Layer-3 audio bit allocations
Algoritma MP3 melibatkan pendekatan yang lebih canggih, yang masih didasarkan pada filter bank yang sama seperti yang digunakan pada lapisan 1 dan 2. Algoritma ini mengkompensasi beberapa kekurangan filter bank dengan mengolah output penyaring subband dengan  modified discrete cosine transform (MDCT) dengan jendela panjang 36.



MP3 quantizer menimbulkan masukan MDCT untuk daya 3/4 sebelum kuantisasi
memberikan rasio signal-to-noise yang lebih konsisten selama rentang nilai quantizer. Hal ini menyebabkan kuantisasi tidak seragam.


Dolby AC3 audio codec
Dalam rangka memberikan audio yang superior coding untuk multichannel surround sound, sehingga dapat digunakan untuk High Definition Television (HDTV) sementara yang membutuhkan data rate yang sama seperti yang digunakan dalam sistem suara stereo, AC3 diusulkan dan dikembangkan oleh Dolby Inc untuk DVD, HDTV, home theater system (htss), dll
Sistem AC3 juga menggunakan fitur psychoacoustic manusia untuk "menutupi" yang sinyal audio terdengar. Ini memberikan enam saluran benar-benar terpisah dari suara: lima saluran utama, kecuali untuk saluran subwoofer, yang lengkap (3-20 000 Hz) saluran suara, sedangkan subwoofer saluran keenam, juga disebut low-frequency effects (LFE).

Ø  Bit allocation in AC3
AC3 coder memanfaatkan mundur hibrida dan alokasi bit maju adaptif, di mana sebagian besar kerugian dari adaptasi mundur dihapus. Metode ini melibatkan inti bit pengalokasi mundur adaptif, yang berjalan di kedua encoder dan decoder. Ini sedikit pengalokasi psychoacoustic-model berbasis relatif sederhana tetapi cukup akurat.


Ø  Filter bank
AC3 mengambil blok tumpang tindih dari 512 sampel berjendela (berdasarkan proprietary 512-point jendela Fielder dan mengubahnya menjadi 256 poin frekuensi-domain.
Alokasi bit dapat terjadi dalam kelompok transform koefisien berbagi alokasi yang sama atau pada tingkat mengubah-koefisien individu, tetangga koefisien menerima alokasi yang berbeda.

Ø  Spectral envelope
Untuk mengurangi jumlah rata-rata bit yang digunakan dalam pengkodean amplop spektral di D15, terutama ketika spektrum relatif stabil, perbedaan eksponen dapat dikirimkan hanya sesekali.
AC3 encoder bertanggung jawab untuk memilih metode pengkodean eksponen digunakan untuk setiap blok audio yang diberikan. Setiap blok audio yang berisi field kode 2-bit yang disebut strategi eksponen. Empat strategi yang mungkin adalah D15, D25, D45, dan Reuse. Untuk sebagian besar kondisi sinyal yang D15 kode set eksponen dikirim selama blok audio yang pertama dalam bingkai, dan lima blok audio yang berikut menggunakan kembali set eksponen yang sama.

Ø  Coupling
AC3 encoder bertanggung jawab untuk menentukan strategi kopling. Encoder kontrol yang dari saluran audio untuk dimasukkan dalam kopling dan yang akan tetap benar-benar independen. Encoder juga mengontrol frekuensi di mana kopling dimulai, struktur pita kopling (bandwidth dari band digabungkan), dan waktu di mana koordinat kopling baru dikirim. The kopling rutin strategi dapat diubah atau diperbaiki setiap saat dan, karena informasi strategi kopling adalah eksplisit dalam bitstream disandikan, semua decoder akan mengikuti perubahan.

MPEG-2 Advanced Audio Coding (AAC)
Hal ini dikombinasikan penelitian dan pengembangan upaya dari terkemuka di dunia laboratorium pengkodean audio, seperti Fraunhofer Institute, Dolby, Sony, dan AT & T. Secara teknis, format AAC dapat mendukung hingga 48 saluran suara penuh frekuensi dan 16 saluran tambahan lowfrequency. Hal ini juga mendukung tingkat sampling hingga 96 kHz, dua kali maksimum yang diberikan oleh MP3 dan AC3 dan sekarang format yang digunakan untuk lagu yang diunduh dari situs musik iTunes populer (www.itune.com).

AAC memberikan kinerja yang unggul untuk setiap codec dikenal dengan kecepatan bit lebih besar dari 64 kbps untuk audio stereo. Lebih khusus, pada 96 kbps untuk audio stereo memberikan kualitas yang sebanding dengan MPEG-1 Layer 2 pada 192 kbps dan MP3 di 128 kbps. Jepang Asosiasi Industri Radio dan Bisnis (ARIB) dipilih MPEG-2 AAC sebagai satu-satunya skema pengkodean audio untuk sistem siaran digital.

MPEG-4 AAC (HE-AAC)
HE-AAC tidak dimaksudkan sebagai pengganti LC AAC melainkan sebagai ekstensi, dan diusulkan terutama untuk internet, mobile, dan arena penyiaran. Encoder ini ditargetkan untuk encoding kualitas medium dengan kecepatan bit 24 kbps per channel dan lebih tinggi.

§           Spectral band replication (SBR)
   Lebih khusus lagi, codec mulai mengurangi bandwidth audio atau mereka memperkenalkan artefak mengganggu coding, akibat kekurangan bit, dalam usaha mereka untuk mewakili bandwidth audio yang lengkap. Dengan kata lain, bitrate rendah-coding audio bisa membuat artefak suara yang muncul di atas ambang masking.

§       MPEG-4 HE-AAC v2
    MPEG-4 HE-AAC v2 standar menggabungkan HE-AAC (AACþ) dengan stereo parametrik (PS) teknik untuk sangat-rendah-bitrate audio, seperti 32 kbps untuk input stereo. Teknik PS mentransmisikan satu saluran mono gabungan ditambah 2-3 kbps informasi samping dan mencapai efisiensi hampir 50% lebih baik daripada AACþ bila digunakan untuk internet, mobile, penyiaran, dan domain lainnya dengan sumber daya terbatas. HE-AAC v2 codec merupakan bagian dari standar 3GPP untuk pengiriman konten audio ke perangkat 3G.

Menggabungkan AAC dengan SBR dan PS untuk menghasilkan v2 hasil HE-AAC dalam audio codec yang sangat efisien, memberikan kualitas audio yang tinggi pada rentang bitrate yang luas, dengan hanya pengurangan bertahap moderat kualitas audio yang dirasakan terhadap bitrate yang sangat rendah.


Mind Map



Sumber : Multimedia Networking

No comments:

Post a Comment