A két legnagyobb tévhit a digitális audió működéséről és a CD formátumról

Digitális rendszerek időbeli felbontása és dinamikatartománya.

2021.09.02.

Amikor a CD megjelent nemcsak egy új formátum született, hanem rengeteg tévhit és félrevezető információ is napvilágot látott a digitális technikával kapcsolatban. Ezek a tévhitek (a digitális jelek lépcsősek, szögletesek stb.) túlélték a CD-t és a mai napig itt kísértenek és fel-fel bukkannak a nagy felbontású (high-resolution) zenéket és lejátszókat népszerűsítő oldalakon. (Maga a CD formátum végül is nem halt meg, csak átalakult, hiszen a legfontosabb jellemzői felfedezhetők a mai modern audió formátumokban.)

Nagy felbontású zenéket és lejátszókat népszerűsítő oldalakon található ábráknak semmi köze sincs a valósághoz

Két leggyakoribb tévhit a digitális hangrögzítéssel (PCM kódolással) kapcsolatban:

A mintavételezett jel időbeli felbontása a mintavételezés periódusideje.
A legkisebb helyiértékű bitnél kisebb analóg értéket nem lehet digitálisan ábrázolni.

Mindkét állítás téves. Az analóg-digitális átalakítás a jel időbeli felbontására nincs hatással, digitálisan pedig bármilyen analóg értéket le lehet tárolni, ugyanis a bitek száma nem a 'tárolási pontosságot', hanem a zajszintet határozza meg.

A digitális hangrögzítés történetét sajnos végigkísérik a fenti sztereotípiák. Az analóg-digitális átalakítás és a PCM kódolás félreértelmezése olyan további tévhiteket eredményezett, mint a 'digitális rosszabb, mint az analóg' és valószínűleg innen ered a hanglemez kultusza is. Jelenleg az aktuális csoda a high-resolution audio, azaz a nagyfelbontású zene, azonban ha a kulisszák mögé tekintünk, nyilvánvalóvá válik, hogy nincs értelme a zenét 'hi-res' formátumokban terjeszteni.

Digitális hangrögzítéshez kapcsolódó alap tévedések:

digitális-analóg átalakítók kimenetén a jel szögletes, lépcsős;
PCM kódolás az emberi fül számára természetellenes 'digitális' torzítást ad az eredeti analóg jelhez;
mivel a hang analóg jel, ezért a digitális átalakítás elvesz valamit az eredeti jelből;
a felbontást és a mintavételezési frekvenciát növelve a jel egyre 'analógabb', a hangzás egyre részletesebb lesz.

Mintavételezéssel kapcsolatos tévhitek:

mintavételezett jel időbeli felbontása a mintavételezés periódusideje;
a mintavételezési frekvenciát növelve az időbeli felbontás javul;
44,1 kHz-es mintavételezési frekvencián a digitális szűrők (anti-aliasing, resampling szűrők) hallható torzítást okoznak;
újramintavételezést (resampling, pl. 44,1 kHz ➝ 48 kHz-es konverzió) feltétlenül kerülni kell, mert az újramintavételezés hallható torzítást okoz.

Felbontással kapcsolatos tévhitek:

a legkisebb helyiértékű bitnél kisebb analóg értéket nem lehet digitálisan ábrázolni;
16 bit maximális dinamikatartománya 96 decibel.

Alapfogalmak

Az analóg jelek digitális kódolása történhet PCM kódolással (CD, WAV, FLAC) vagy bitstream kódolással (DSD). A modern AD átalakítók többsége köztes lépésként bitstream kódolást alkalmaz és az 1 bites kódot alakítja át PCM kódra - a DAC-ok pedig fordítva. A bitstream kódolásnak van egy hatalmas hátránya a PCM kódolással szemben: a DSD bitfolyamot nem lehet közvetlenül szerkeszteni, ami kérdésessé teszi a DSD technológia használatát.

Az analóg digitális átalakítás két fő lépésből áll: a mintavételezésből és a kvantálásból. Ezt a két lépést elméleti síkon külön lehet vizsgálni, azonban a valódi analóg digitális átalakítás jóval bonyolultabb és rengeteg köztes lépésből áll. A mintavételezés azt jelent, hogy az analóg jelből meghatározott időközönként (periódusonként) mintát veszünk. Ezután következik a kvantálás művelete, amikor a mintavételezett analóg jel pillanatnyi amplitúdóját binárisan kódoljuk. A különbség az analóg jel és a digitális érték között a kvantálási hiba.

Mintavételezési frekvencia [kHz]	Fs/2 [kHz]	Max. frekvencia 1 kHz szűrővel [kHz]
32	16	15
44,1	22,05	21
48	24	23

Az analóg-digitális átalakítás két legfontosabb mérőszáma a mintavételezési frekvencia és a felbontás (szóhosszúság bitekben). Mindegyikre jellemző, hogy egy határértéket elérve már nem lehet további minőségi javulást elérni. A mintavételezési frekvencia a rögzíthető frekvenciatartományt határozza meg, a felbontás pedig a dinamikatartományt. A felbontás és a dinamikatartomány közötti kapcsolat eléggé bonyolult a rengeteg konverziós módszereknek köszönhetően. Egy 16 bites rendszerben 2¹⁶ = 65536 darab jelszint található, azonban ez nem azt jelenti, hogy 65536 analóg értéket lehet csak pontosan ábrázolni.

Sajnos a 'felbontás' igen félrevezető kifejezés, mivel az sugallja, hogy több bitet használva a digitálisan kódolt jeleknek nagyobb lesz a pontossága. Azonban PCM kódolásnál a bitek számának növelésével egyedül a zajszint csökken és pontosságról, felbontásról nincs értelme beszélni. A felbontás csak a bitmélység szinonimájaként használható, másként nem értelmezhető.

Digitális rendszerek időbeli felbontása

Ha valaki nem ismeri a PCM kódolást, akkor könnyen úgy gondolhatja, hogy a mintavételezési frekvencia 96 kHz-re vagy 192 kHz-re történő növelése javít az időbeli felbontáson. A PCM kódolás szerencsére nem így működik és akármilyen furcsán hangzik, a mintavételezésnek az időbeli felbontásra nincs hatása. Az eredeti sávhatárolt jel bármilyen fázissal letárolható és ábrázolható.

impulzus mintavételezése és rekonstrukciója - 44,1 kHz

A fenti ábrán egy mintavételezett impulzus látható (vagy másképp egy resampling szűrő impulzusválasza). A mintavételezési frekvencia 44,1 kHz. A sárga négyzetek a tárolt értékek (mintavételezett értékek) a halvány kék görbe a pontokból számolt görbe. Az impulzus csúcsa két mintavételezési pont közé esik, azonban a pontokból így is rekonstruálható. Teljesen mindegy, hogy hová esik az impulzus csúcsa vagy az analóg jel, a mintavételezett értékekből mindig visszaszámolhatóak a hiányzó pontok.

Szintén gyakori tévhit, hogy a mintavételezési konverziók során alkalmazott digitális szűrők - főleg alacsony mintavételezési frekvenciánál - kártékonyan hatnak a fázismenetre, illetve az impulzusválaszukban látható ún. pre-ringing hallható. A digitális szűrök lineáris fázisú szűrők és csak egy adott frekvencián "rezegnek", ami általában a mintavételezési frekvencia fele vagy a mintavételezési frekvencia fele alatt található pár száz Hertz-el. 44,1 kHz-es mintavételezési frekvenciánál ez 22,05 kHz. Ez a 22 kHz-es rezgés látható az impulzusválaszban, azonban attól, hogy valami látható, még nem biztos, hogy hallható. Ebben az esetben biztos, hogy nem hallható.

Linearitás és dinamikatartomány

Szintén gyakori tévhit, hogy egy digitális rendszer nem képes a legkisebb helyiértékű bitnél kisebb analóg értékeket ábrázolni. A CD megjelenése után hamar beégett a köztudatba az a téves állítás, hogy a "16 bit maximális dinamikatartománya 96 decibel". A 96 decibel már a CD megjelenésekor se volt igaz.

A tankönyvek, magazinok leírása a kvantálásról sokszor téves. Egy 16 bites rendszerben 2¹⁶ = 65536 darab jelszint található, azonban ez nem azt jelenti, hogy 65536 analóg értéket lehet csak pontosan ábrázolni. Amennyiben a kvantálás szimpla kerekítéssel történik, akkor a maximálisan elérhető dinamika tiszta (tehát zajmentes!) szinusz jellel n * 6.02 decibel, azaz 16 bit esetén 16 * 6.02 = 96,32 dB. Ha az eredeti jelhez kvantálás előtt nagyon kis amplitúdójú (általában egy bit amplitúdójú) fehér zajt keverünk, akkor a digitális rendszer pontossága és linearitása javul és ezáltal nagyobb dinamika érhető el. Ezt az egy bit amplitúdójú zajt nevezik dither-nek. A 'dither' az utolsó bit torzítását zajjá alakítja, aminek az energiája kevésbé koncentrálódik egy adott frekvenciára és ezáltal kevésbé hallható. Fehér zaj eloszlású dither-rel (TPDF dither) kb. 10 decibelt lehet javítani a dinamikán.

Alakított dither-nél (zajformálásnál) a kvantálási zaj nagy része a 15 kHz feletti tartományba kerül, míg a hallható tartományban további 18 decibel javulás érhető el.

Dither-rel készült 16 bites digitális felvétel megfelelő DA konverzió után teljesen úgy viselkedik, mint egy analóg jel, a fül és a műszerek számára megkülönböztethetetlen az analóg jelektől. Nincsenek szögletes lépcsők a jelben, nincs semmilyen digitális hangzás, ahogy csökken a jel amplitúdója, úgy fokozatosan tűnik el az alapzajban - mint egy teljesen analóg rendszernél.

alakított dither, zajformálás 44,1 kHz-en

Zöld: TPDF dither, kék: alakított dither frekvenciaspektruma (16bit/44,1 kHz)

Amennyiben a kvantálást szimpla kerekítéssel végezzük és a kiindulási jel tiszta szinuszos jel, akkor a dinamikatartomány = n * 6.02 decibel képlet alapján számítható. Ha az eredeti jelhez kvantálás előtt dither-t adunk, akkor az n * 6,02 dB számítás használhatatlan, csakúgy mint a hagyományos SNR mérés.

Audió rendszerek pontos dinamikai jellegű jellemzésére a jel-zaj viszony (SNR, signal-to-noise ratio) és a dinamikatartomány villamosmérnöki koncepciója nem alkalmas. Ha például egy DAC megadott dinamikatartománya vagy SNR értéke 96 dBA, akkor ez nem azt jelenti, hogy a dinamikatartománya 96 dBA, hanem azt, hogy egy szabványos mérés alapján a dinamika 96 dBA. 96 dBA dinamikatartományt a fül nagyobbnak érzékeli, és ha az alapzaj fehér zaj eloszlású, akkor 96 dBA nagyjából 103 decibel szubjektív, azaz érzékelhető dinamikának felel meg.

A fül másképp érzékeli a zajt, mint egy RMS mérő. Az RMS mérés egyrészt túlbecsüli a zaj mértékét, másfelől az RMS-ben mért zajteljesítmény és a zaj érzékelt hangossága között nincs korreláció. A dinamikatartomány számításához olyan zajmérési elvre van szükség, ami hasonlóan működik, mint az emberi fül zaj érzékelése. Szerencsére a szubjektív dinamikatartomány mérésére és számítására léteznek pontos módszerek.

	kerekítés	TPDF dither	alakított dither
dither	nincs	1 bites fehér zaj	alakított
torzítás kis amplitúdójú jeleknél	van	nincs	nincs
SNR (0-22 kHz)	96,32 dB	93,32 dB	~ 80 dB
szubjektív dinamikatartomány	96 dB	~103 dB	~120 dB

16 bit/44,1 kHz PCM kódolás

A táblázat értékei az elméletileg elérhető maximumok. Ha egy felvétel zajszintje magasabb, mint az alkalmazott dither zajszintje, akkor a felvételi zaj fog dominálni és a dinamikatartomány kisebb lesz. A táblázatból az is látszik, hogy az SNR nem mindig tükrözi a valóságot. Fehér zajnál az eltérés majdnem 10 decibel, alakított zajnál pedig 40 decibel is lehet.

16 bit / 44,1 kHz dinamikatartomány, jel -110 dB-nél

-110 decibel amplitúdójú szinusz jel 16 bit-en (alakított dither)

A felbontás és a dinamikatartomány közötti kapcsolat tehát igen összetett, és hogy még bonyolultabb legyen, a konverzió típusa mellett a mintavételezési frekvencia is befolyásoló tényező. 16 bites és 24 bites felbontással elérhető legnagyobb dinamikatartomány:

Mintavételezési frekvencia	Dinamikatartomány [dB]
[kHz]	16 bit	24 bit
32	102	150
44,1	120*	151
48	120*	152
96	140*	155

A '*'-al jelöltek zajformálással értendők, 24 biten nincs értelme zajformálást alkalmazni

A "zajszint ekvivalencia" alapján bármilyen hangfelvétel dinamikatartománya kifejezhető bitekben is. Jelenleg a legjobb minőségű, legkisebb zajú felvételek (2L, BIS Records, AIX Records felvételei) maximum 18 bitet használnak a 24-ből. Pontosabban, a legkisebb zajú 24 bites felvételek zajszintje megegyezik egy 18bit/44.1 kHz-es fájl zajszintjével, ami azt is jelenti, hogy ezek a 24 bites felvételek dither nélkül veszteségmentesen átkonvertálhatók 18 bitre. Zajformálással pedig akár 15 bitre is átkonvertálhatók úgy, hogy a konverzió nem okoz hallható változást.

	Dinamikatartomány bitekben
	Zajformálás nélkül	Zajformálással
Hanglemez	9-10	6-7
Analóg felvételek (1970-től)	12-13	9-10
Modern digitális felvételek (2005-től)	16-18	13-15

Különböző technológiák dinamikatartománya bitekben (44,1 kHz-en)

Összefoglalva:

Kis amplitúdójú jeleket pontosan csak dither segítségével lehet ábrázolni. A dither a CD megjelenése óta alkalmazott eljárás.
A bitek száma a zajszintet határozza meg és nem a tárolási pontosságot. A maximális jel és a zajszint között dither segítségével bármilyen analóg érték digitálisan ábrázolható.
Amennyiben a felvételi zaj eléri a kvantálási zaj szintjét, felesleges dither-t alkalmazni.
16 bit / 44,1 kHz-es audió perceptuális dinamikatartománya zajformálással akár a 120 decibelt is elérheti.
Bármilyen hangfelvétel dinamikatartománya kifejezhető bitekben is.

A fentiekből következik, hogy 16 bitnél nagyobb felbontású és 44,1 kHz-nél magasabb mintavételezési frekvenciájú FLAC, WAV audió fájlok nem biztosítanak jobb minőségű hangzást. Sőt, a CD formátum - és a formátumra épülő 16bit/44,1 kHz-es FLAC - a felvételek jelentős részénél még túlzásnak is tekinthető, mivel a zenék többségét akár 14 bites és 32 kHz-es FLAC formátumban minőségromlás nélkül lehetne terjeszteni.

Horváth Csaba

Kapcsolódó cikkek:
Mintavételezés modellezése a böngészőben
Tesztoldal felbontás és kvantálási zaj vizsgálatához
Az MP3 és AAC kódolás dinamikatartománya