A két legnagyobb tévhit a digitális audió működéséről és a CD formátumról



Digitális rendszerek időbeli felbontása és dinamikatartománya.

2020.05.16.

A digitális audió működéséről alkotott általános és leegyszerűsített elképzelések nagyon messze járnak a valóságtól. A digitális rendszerek működése sokszor ellentétes a hétköznapi logikával és a legtöbb analógia (főleg képtömörítéssel kapcsolatos analógia) félrevezető. Talán nem véletlen az sem, hogy High-Resolution Audio zenéket kínáló oldalak és a hardvergyártók egy része is a régi sztereotípiákra építi fel a promócióját, miközben félrevezeti a vásárlókat.

High-Resolution Audio

High-Resolution Audio reklámoldalakon található digitális kódolást szemléltető ábrák nagyjából olyan messze járnak a valóságtól, mint régen az 5 Wattos hangszórókon a '2000 Watt PMPO' felirat

Két leggyakoribb tévhit a digitális hangrögzítéssel (PCM kódolással) kapcsolatban:

Mindkét állítás téves. Az analóg-digitális átalakítás a jel időbeli felbontására nincs hatással, digitálisan pedig bármilyen analóg értéket le lehet tárolni, ugyanis a bitek száma nem a 'tárolási pontosságot', hanem a zajszintet határozza meg.

Az olyan kifejezések, mint az "analóg hang", "digitális hang" és "digitális színezettség" szintén nem a valóságot tükrözik. Ha egy 16 bit / 44,1 kHz-es rendszerben valamiféle "digitális színezettség"-et tapasztalunk, akkor azt a lejátszó torzítása okozza. Ilyen például a jitter (órajel ingadozása), ami a régi CD lejátszóknál és inkább az alsó árkategóriában fordult elő. Számítógépeken rosszul beállított szoftveres újramintavételezés (főleg Windows XP-nél régebbi rendszereken) okozhat jitter-hez nagyon hasonló torzítást.


Alapfogalmak

Az analóg jelek digitális kódolása történhet PCM kódolással (CD, WAV, FLAC) vagy bitstream kódolással (SACD). A modern AD átalakítók többsége köztes lépéskét bitstream kódolást alkalmaznak és az 1 bites kódot alakítják át PCM kódra, a DAC-ok fordítva. A bitstream (DSD) kódolásnak van egy hatalmas hátránya a PCM kódolással szemben: a DSD bitfolyamot nem lehet közvetlenül szerkeszteni, ami kérdésessé teszi a DSD technológia használatát.

Az analóg digitális átalakítás két fő lépésből áll: a mintavételezésből és a kvantálásból. Ezt a két lépést elméleti síkon külön lehet vizsgálni, azonban a valódi analóg digitális átalakítás jóval bonyolultabb és rengeteg köztes lépésből áll. A mintavételezés azt jelent, hogy az analóg jelből meghatározott időközönként (periódusonként) mintát veszünk. Ezután következik a kvantálás művelete, amikor a mintavételezett analóg jel pillanatnyi amplitúdóját binárisan kódoljuk. A különbség az analóg jel és a digitális érték között a kvantálási hiba.

Mintavételezési
frekvencia [kHz]
    Fs/2    
[kHz]
Max. frekvencia
1 kHz szűrővel [kHz]
321615
44,122,0521
482423

Az analóg-digitális átalakítás két legfontosabb mérőszáma a mintavételezési frekvencia és a felbontás (szóhosszúság bitekben). Mindegyikre jellemző, hogy egy határértéket elérve már nem lehet további minőségi javulást elérni. A mintavételezési frekvencia a rögzíthető frekvenciatartományt határozza meg, a felbontás pedig a dinamikatartományt. A felbontás és a dinamikatartomány közötti kapcsolat eléggé bonyolult a rengeteg konverziós módszereknek köszönhetően. Egy 16 bites rendszerben 216 = 65536 darab jelszint található, azonban ez nem azt jelenti, hogy 65536 analóg értéket lehet csak pontosan ábrázolni.


Digitális rendszerek időbeli felbontása

Sokan úgy gondolják, hogy a mintavételezési frekvencia 96 kHz-re vagy 192 kHz-re történő növelése javít az időbeli felbontáson. Ez nem igaz, ugyanis a mintavételezés a jel időbeli felbontására nincs hatással.

impulzus mintavételezése és rekonstrukciója - 44,1 kHz

A fenti ábrán egy mintavételezett impulzus látható (vagy másképp egy resampling szűrő impulzusválasza). A mintavételezési frekvencia 44,1 kHz. A sárga négyzetek a tárolt értékek (mintavételezett értékek) a halvány kék görbe a pontokból számolt görbe. Az impulzus csúcsa két mintavételezési pont közé esik, azonban a pontokból így is rekonstruálható. Teljesen mindegy, hogy hová esik az impulzus csúcsa vagy az analóg jel, a mintavételezett értékekből mindig visszaszámolhatóak a hiányzó pontok.

A lineáris fázisú szűrők kártékony hatása (az ún. pre-ringing az impulzusválaszban) szintén a mese birodalmába tartozik. Rengeteg téves információ található a digitális szűrőkkel is a mintavételezett jel időbeli felbontásával kapcsolatban a neten.


Linearitás és dinamikatartomány

Szintén gyakori tévhit, hogy egy digitális rendszer nem képes a legkisebb helyiértékű bitnél kisebb analóg értékeket ábrázolni. A CD megjelenése után hamar beégett a köztudatba az a téves állítás, hogy a "16 bit maximális dinamikatartománya 96 decibel". A 96 decibel már a CD megjelenésekor se volt igaz.

A tankönyvek, magazinok leírása a kvantálásról sokszor téves. Egy 16 bites rendszerben 216 = 65536 darab jelszint található, azonban ez nem azt jelenti, hogy 65536 analóg értéket lehet csak pontosan ábrázolni. Amennyiben a kvantálás szimpla kerekítéssel történik, akkor a maximálisan elérhető dinamika tiszta (tehát zajmentes!) szinusz jellel n * 6.02 decibel, azaz 16 bit esetén 16 * 6.02 = 96,32 dB. Ha az eredeti jelhez kvantálás előtt nagyon kis amplitúdójú (általában egy bit amplitúdójú) fehér zajt keverünk, akkor a digitális rendszer pontossága és linearitása javul és ezáltal nagyobb dinamika érhető el. Ezt az egy bit amplitúdójú zajt nevezik dither-nek. A 'dither' az utolsó bit torzítását zajjá alakítja, aminek az energiája kevésbé koncentrálódik egy adott frekvenciára és ezáltal kevésbé hallható. Fehér zaj eloszlású dither-rel (TPDF dither) kb. 10 decibelt lehet javítani a dinamikán.

Alakított dither-nél (zajformálásnál) a kvantálási zaj nagy része a 15 kHz feletti tartományba kerül, míg a hallható tartományban további 18 decibel javulás érhető el.

Dither-rel készült 16 bites digitális felvétel megfelelő DA konverzió után teljesen úgy viselkedik, mint egy analóg jel, a fül és a műszerek számára megkülönböztethetetlen az analóg jelektől. Nincsenek szögletes lépcsők a jelben, nincs semmilyen digitális hangzás, ahogy csökken a jel amplitúdója, úgy fokozatosan tűnik el az alapzajban - mint egy teljesen analóg rendszernél.

alakított dither, zajformálás 44,1 kHz-en

Zöld: TPDF dither, kék: alakított dither (16bit/44,1 kHz)

Amennyiben a kvantálást szimpla kerekítéssel végezzük és a kiindulási jel tiszta szinuszos jel, akkor a dinamikatartomány = n * 6.02 decibel képlet alapján számítható. Ha az eredeti jelhez kvantálás előtt dither-t adunk, akkor az n * 6,02 dB számítás használhatatlan, csakúgy mint a hagyományos SNR mérés.

Audió rendszerek pontos dinamikai jellegű jellemzésére a jel-zaj viszony (SNR, signal-to-noise ratio) és a dinamikatartomány villamosmérnöki koncepciója nem alkalmas. Ha például egy DAC megadott dinamikatartománya vagy SNR értéke 96 dBA, akkor ez nem azt jelenti, hogy a dinamikatartománya 96 dBA, hanem azt, hogy egy szabványos mérés alapján a dinamika 96 dBA. 96 dBA dinamikatartományt a fül nagyobbnak érzékeli, és ha az alapzaj fehér zaj eloszlású, akkor 96 dBA nagyjából 103 decibel szubjektív, azaz érzékelhető dinamikának felel meg.

A fül másképp érzékeli a zajt, mint egy RMS mérő. Az RMS mérés egyrészt túlbecsüli a zaj mértékét, másfelől az RMS-ben mért zajteljesítmény és a zaj érzékelt hangossága között nincs korreláció. A dinamikatartomány számításához olyan zajmérési elvre van szükség, ami hasonlóan működik, mint az emberi fül zaj érzékelése. Szerencsére a szubjektív dinamikatartomány mérésére vagy számítására léteznek pontos módszerek.

kerekítésTPDF ditheralakított dither
utolsó bit torzításvannincsnincs
szubjektív dinamikatartomány (max.)96 dB~103 dB~120 dB
lineáris tartomány85 dB~103 dB~120 dB
SNR (0-22 kHz)96,32 dB93,32 dB~80 dB

16 bit/44,1 kHz PCM kódolás

A táblázat értékei az elméletileg elérhető maximumok, ha egy felvétel zajszintje magasabb mint az alkalmazott dither zajszintje, akkor a felvételi zaj fog dominálni és a dinamikatartomány kisebb lesz. Egy régi stúdiómagnóval készült felvétel dinamikája kb. 70 decibel és 16 vagy 24 bitre konvertálva se fog megváltozni.

Látható, hogy az SNR számítás mekkorát téved. Fehér zajnál a hiba majdnem 10 decibel, alakított zajnál pedig 40 decibel.

16 bit / 44,1 kHz dinamikatartomány, jel -110 dB-nél

-110 decibel amplitúdójú szinusz jel 16 bit-en (alakított dither)

A felbontás és a dinamikatartomány közötti kapcsolat tehát igen összetett, és hogy még bonyolultabb legyen, a konverzió típusa mellett a mintavételezési frekvencia is befolyásoló tényező. 16 bites és 24 bites felbontással elérhető legnagyobb dinamikatartomány:

Mintavételezési frekvenciaDinamikatartomány [dB]
[kHz]16 bit24 bit
32102150
44,1120*151
48120*152
96140*155

A '*'-al jelöltek zajformálással értendők, 24 biten nincs értelme zajformálást alkalmazni

Érdekes megvizsgálni a felvételek zajszintjét és dinamikáját. Jelenleg a legjobb minőségű, legkisebb zajú felvételek (2L, BIS, AIX Records felvételei) maximum 18 bitet használnak a 24-ből. Ez azt jelenti, hogy a legkisebb zajú, legjobb technológiával felvett 24 bites felvételek dither nélkül átkonvertálhatók 18 bitre veszteségmentesen, tehát nem változik meg a felvétel alapzaja és semmilyen más tulajdonsága. Zajformálással pedig akár 15 bitre is átkonvertálhatók hallható változás nélkül.

Összefoglalva:


Kiegészítés: a CD dinamikatartományát érintő fejlesztések

A CD dinamikatartományának kiterjesztésében Stanley Lipshitz, John Vanderkooy és Robert Wannamaker végzett úttörő munkát. Az addig standardnak tekinthető, fehér zaj spektrumú dither-hez képest 18 decibellel sikerült csökkenteniük a kvantálási zajt a hallható tartományban. Munkájukat 1991-ben publikálták (Minimally Audible Noise Shaping). Mérési módszerük (15 phon görbe inverzével súlyozott SNR) azonban csak relatív mérésre adott lehetőséget. Később az audioelektronikai termékeket gyártó cégek is kifejlesztették a saját zajformálási módszereiket (Sony Super Bitmapping, JVC, Meridian) majd a 90-es évek végére a zeneszerkesztő programokban is megjelentek a zajformálási algoritmusok. Az a módszer, amivel egy audió rendszer dinamikatartományát a zajspektrumból ki lehet számítani, Robert Stuart-tól származik (Coding for High-Resolution Audio Systems).

Horváth Csaba

Jelenleg nem létezik olyan zenei felvétel, ami kihasználná a 16 bit teljes dinamikatartományát és valószínűleg nem is lesz további fejlődés ezen a téren, mivel értelmetlen tovább csökkenteni a felvételi rendszerek zajszintjét. A 44,1 kHz-es mintavételezési frekvencia szintén elegendő, sőt rengeteg felvételt - főleg klasszikus zenei felvételt - ki lehetne adni 32 kHz-en, mert sok hangszernél nincsen rögzítendő jel 16 kHz felett.

Facebook    Google



Vissza a főoldalra