JARINGAN MULTIMEDIA
Resume Digital Audio
Coding
Jurusan Teknik Informatika
Fakultas Teknologi Informasi
Institut Teknologi Sepuluh Nopember
Digital Audio
Coding
Pada tahun 1979, Philips dan Sony membentuk gugus
tugas gabungan insinyur untuk merancang disk audio digital baru untuk merekam
audio musik dalam format digital. Setelah satu tahun percobaan dan diskusi,
gugus tugas menghasilkan Compact Disk (CD) standar.
Tidak praktis untuk membuat satu model untuk setiap
mekanisme generasi suara. Fakta ini membawa kita untuk menginvestigasi
mekanisme penerimaan suara, bukan generasi suara.
Sistem pendengaran manusia, yang terdiri dari telinga
dan otak, memproses sinyal audio yang masuk dalam dua cara yang berbeda yaitu fisiologis
dan psikologis. Telinga kita terdiri dari tiga komponen fisiologis mendasar
yaitu telinga bagian dalam, tengah dan luar dengan fungsi yang berbeda pula.
3. 1 Human
Psychoacoustics
Sebagaimana disebutkan di atas, persepsi manusia
suara melibatkan beberapa efek psikologis. Sebagai contoh, telinga manusia
kurang lebih merespon logaritmik secara subyektif
untuk meningkatkan volume. Pendengaran manusia memiliki dynamic range sekitar
110 desibel (dB).
3.1.1 Hearing Sensitivity
Koklea telinga
kita melakukan analisis perkiraan frekuensi dalam kisaran antara 20 Hz sampai
20 kHz, ini mirip dengan Fourier transform sempurna dengan resolusi frekuensi
yang terbatas. SPL (Sound Pressure Level) didefinisikan secara matematis sebagai
:
untuk kuantisasi
audio sampel sedemikian rupa untuk kompres data, kita harus memilih cukup bit
per sampel untuk mengurangi kebisingan kuantisasi yang dihasilkan ke tingkat
yang memuaskan.
3.1.2 Frequency Masking
Lebih khusus
lagi, mari kita memainkan nada Hz 250 (yang masker) pada tingkat yang kuat
tetap (65 dB) dan memainkan nada tes kedua (misalnya, 180 Hz) pada tingkat yang
lebih rendah secara bersamaan dan meningkatkan tingkat sampai hanya dibedakan
(ambang pendengaran). Hal ini dapat diamati bahwa suara keras (masker) akan
mendistorsi ambang mutlak pendengaran sehubungan dengan logaritma dari
frekuensi dalam kHz, lihat Gambar 3.4, dan membuat suara lebih tenang (suara masked),
yang semula terdengar, tak terdengar. Efek ini disebut "frekuensi
masking".
3.1.3 Temporal Masking
Suara lemah
yang dipancarkan segera setelah akhir dari suara keras tertutup oleh
Suara yang lebih
keras.
Subband signal
processing and polyphase filter implementation
Karena sifat masking frekuensi pendengaran manusia,
representasi terbaik dari audio adalah representasi frekuensi domain, yang
diperoleh dengan menggunakan subband atau mengubah filter bank. Untuk
menganalisis psychoacoustics persepsi telinga manusia dari sinyal audio,
analisis masking dan penugasan bitrate harus disiapkan dan diproses dalam
bingkai dengan panjang yang telah ditentukan sinyal audio.
Dalam pelaksanaan yang sebenarnya coding audio,
seperti MPEG audio, codec membagi setiap frame dari sinyal audio ke 32
sama-lebarnya (seragam) frekuensi subbands daripada band – band kritis yang tidak seragam, karena penggunaan
polyphase struktur filter relatif sederhana.
MPEG-1 audio
layers
Kompresi MPEG-1 audio yang menerima audio dengan
tingkat sampling dari 32, 44,1, atau 48 kHz. Dikompresi bit stream dapat
mendukung satu atau dua saluran audio dan memiliki salah satu dari beberapa standar
bitrate mulai 32-224 kbps per channel, setara dengan rasio kompresi 24-2,7. Hal
ini dipercaya bahwa dengan 6: 1 rasio kompresi (yaitu, 16-bit stereo sampel di
48 kHz sehingga dikompresi hingga 256 kbps) dan kondisi mendengarkan yang
optimal, pendengar ahli tidak bisa membedakan antara klip audio kode dan asli.
MPEG-1 audio yang menawarkan tiga lapisan independen
kompresi, yaitu :
ü Layer
1 memiliki kompleksitas terendah dan bitrate tertinggi, mulai 32-224 kbps per
channel dengan target bitrate 192 kbps per saluran.
ü Layer
2 memiliki kompleksitas menengah dan ditargetkan bitrate sekitar 128 kbps per
saluran.
ü Layer
3 memiliki kompleksitas tertinggi dan menawarkan kualitas audio terbaik,
terutama untuk bitrate sekitar 64 kbps per saluran.
v Polyphase implementation of MPEG-1 filter
bank
v MPEG-1 audio psychoacoustics
Psychoacoustics
audio MPEG-1 mengambil keuntungan dari karakteristik tergantung pada frekuensi
sistem pendengaran manusia, karena ambang masking (untuk masking frekuensi dan
/ atau temporal masking) pada setiap frekuensi yang diberikan semata-mata
bergantung pada energi sinyal di dalam lingkungan yang terbatas-bandwidth
frekuensi itu, untuk kompresi yang paling efisien.
Lebih khusus
lagi, setiap band harus dikuantisasi dengan tingkat tidak lebih dari ini diperlukan
untuk membuat kebisingan kuantisasi tak terdengar. Encoder menggunakan posisi
frekuensi dan kenyaringan yang sesuai untuk memutuskan cara terbaik untuk
mewakili sinyal audio input dengan jumlah terbatas bit kode.
v Layer-3 audio bit allocations
Algoritma MP3
melibatkan pendekatan yang lebih canggih, yang masih didasarkan pada filter
bank yang sama seperti yang digunakan pada lapisan 1 dan 2. Algoritma ini
mengkompensasi beberapa kekurangan filter bank dengan mengolah output penyaring
subband dengan modified discrete cosine
transform (MDCT) dengan jendela panjang 36.
MP3 quantizer
menimbulkan masukan MDCT untuk daya 3/4 sebelum kuantisasi
memberikan
rasio signal-to-noise yang lebih konsisten selama rentang nilai quantizer. Hal
ini menyebabkan kuantisasi tidak seragam.
Dolby AC3
audio codec
Dalam rangka memberikan audio yang superior coding
untuk multichannel surround sound, sehingga dapat digunakan untuk High
Definition Television (HDTV) sementara yang membutuhkan data rate yang sama
seperti yang digunakan dalam sistem suara stereo, AC3 diusulkan dan
dikembangkan oleh Dolby Inc untuk DVD, HDTV, home theater system (htss), dll
Sistem AC3 juga menggunakan fitur psychoacoustic
manusia untuk "menutupi" yang sinyal audio terdengar. Ini memberikan
enam saluran benar-benar terpisah dari suara: lima saluran utama, kecuali untuk
saluran subwoofer, yang lengkap (3-20 000 Hz) saluran suara, sedangkan
subwoofer saluran keenam, juga disebut low-frequency effects (LFE).
Ø Bit allocation in AC3
AC3
coder memanfaatkan mundur hibrida dan alokasi bit maju adaptif, di mana
sebagian besar kerugian dari adaptasi mundur dihapus. Metode ini melibatkan
inti bit pengalokasi mundur adaptif, yang berjalan di kedua encoder dan
decoder. Ini sedikit pengalokasi psychoacoustic-model berbasis relatif
sederhana tetapi cukup akurat.
Ø Filter bank
AC3 mengambil
blok tumpang tindih dari 512 sampel berjendela (berdasarkan proprietary
512-point jendela Fielder dan mengubahnya menjadi 256 poin frekuensi-domain.
Alokasi bit
dapat terjadi dalam kelompok transform koefisien berbagi alokasi yang sama atau
pada tingkat mengubah-koefisien individu, tetangga koefisien menerima alokasi
yang berbeda.
Ø Spectral envelope
Untuk
mengurangi jumlah rata-rata bit yang digunakan dalam pengkodean amplop spektral
di D15, terutama ketika spektrum relatif stabil, perbedaan eksponen dapat
dikirimkan hanya sesekali.
AC3 encoder
bertanggung jawab untuk memilih metode pengkodean eksponen digunakan untuk
setiap blok audio yang diberikan. Setiap blok audio yang berisi field kode
2-bit yang disebut strategi eksponen. Empat strategi yang mungkin adalah D15,
D25, D45, dan Reuse. Untuk sebagian besar kondisi sinyal yang D15 kode set eksponen
dikirim selama blok audio yang pertama dalam bingkai, dan lima blok audio yang
berikut menggunakan kembali set eksponen yang sama.
Ø Coupling
AC3 encoder bertanggung
jawab untuk menentukan strategi kopling. Encoder kontrol yang dari saluran
audio untuk dimasukkan dalam kopling dan yang akan tetap benar-benar
independen. Encoder juga mengontrol frekuensi di mana kopling dimulai, struktur
pita kopling (bandwidth dari band digabungkan), dan waktu di mana koordinat
kopling baru dikirim. The kopling rutin strategi dapat diubah atau diperbaiki
setiap saat dan, karena informasi strategi kopling adalah eksplisit dalam
bitstream disandikan, semua decoder akan mengikuti perubahan.
MPEG-2
Advanced Audio Coding (AAC)
Hal ini dikombinasikan penelitian dan pengembangan
upaya dari terkemuka di dunia laboratorium pengkodean audio, seperti Fraunhofer
Institute, Dolby, Sony, dan AT & T. Secara teknis, format AAC dapat
mendukung hingga 48 saluran suara penuh frekuensi dan 16 saluran tambahan
lowfrequency. Hal ini juga mendukung tingkat sampling hingga 96 kHz, dua kali
maksimum yang diberikan oleh MP3 dan AC3 dan sekarang format yang digunakan
untuk lagu yang diunduh dari situs musik iTunes populer (www.itune.com).
AAC memberikan kinerja yang unggul untuk setiap codec
dikenal dengan kecepatan bit lebih besar dari 64 kbps untuk audio stereo. Lebih
khusus, pada 96 kbps untuk audio stereo memberikan kualitas yang sebanding
dengan MPEG-1 Layer 2 pada 192 kbps dan MP3 di 128 kbps. Jepang Asosiasi
Industri Radio dan Bisnis (ARIB) dipilih MPEG-2 AAC sebagai satu-satunya skema
pengkodean audio untuk sistem siaran digital.
MPEG-4 AAC
(HE-AAC)
HE-AAC tidak dimaksudkan sebagai pengganti LC AAC
melainkan sebagai ekstensi, dan diusulkan terutama untuk internet, mobile, dan
arena penyiaran. Encoder ini ditargetkan untuk encoding kualitas medium dengan
kecepatan bit 24 kbps per channel dan lebih tinggi.
§ Spectral band replication (SBR)
Lebih
khusus lagi, codec mulai mengurangi bandwidth audio atau mereka memperkenalkan
artefak mengganggu coding, akibat kekurangan bit, dalam usaha mereka untuk
mewakili bandwidth audio yang lengkap. Dengan kata lain, bitrate rendah-coding
audio bisa membuat artefak suara yang muncul di atas ambang masking.
§ MPEG-4 HE-AAC v2
MPEG-4
HE-AAC v2 standar menggabungkan HE-AAC (AACþ) dengan stereo parametrik (PS)
teknik untuk sangat-rendah-bitrate audio, seperti 32 kbps untuk input stereo.
Teknik PS mentransmisikan satu saluran mono gabungan ditambah 2-3 kbps
informasi samping dan mencapai efisiensi hampir 50% lebih baik daripada AACþ
bila digunakan untuk internet, mobile, penyiaran, dan domain lainnya dengan
sumber daya terbatas. HE-AAC v2 codec merupakan bagian dari standar 3GPP untuk
pengiriman konten audio ke perangkat 3G.
Menggabungkan AAC
dengan SBR dan PS untuk menghasilkan v2 hasil HE-AAC dalam audio codec yang
sangat efisien, memberikan kualitas audio yang tinggi pada rentang bitrate yang
luas, dengan hanya pengurangan bertahap moderat kualitas audio yang dirasakan
terhadap bitrate yang sangat rendah.
Mind Map
Sumber : Multimedia Networking
No comments:
Post a Comment