Cs.Kádár Péter - XXI. századi Diszkónika, 99. Élet az empéhárom után

ee01

 Sőt, nemcsak az mp3 után, hanem előtte és alatta is nyüzsgő élet volt a veszteséges hangtömörítések világában. Ennek egyrészt az volt az oka, hogy a digitális technika óriásai és törpéi nem akartak beletörődni, hogy az mp3 mindent vitt, másrészt ugyan az mp3 nem a digitális képrögzítés és -átvitel melléktermékeként született meg, ám az mpeg társaság – Moving Picture Experts Group „kegyeskedett” befogadni, mint az mpeg1 eljárások harmadik rétegét.

 

ee02

Mindazonáltal a film hangja egy ideig – és sok szempontból napjainkig is – más utat járt be, mint a csak hang.

Ennek egyik korai példája a Dolby cég Dolby Digital hangrendszere, aminek módosított változata AC-3 néven vonult be az otthoni mozizás világába.

Ami a hangot illeti, az ellenségek között két nagyágyú is van: a Microsoft és az Apple. Az előbbi a Windows Media Audio, az utóbbi a QuickTime korai változatával próbálta megölni az mp3-at – mérsékelt eredménnyel.

ee03
Nagyon ígéretesnek tűnt az OGG-Vorbis formátum, amely az előző kettővel ellentétben ingyenes volt. Sokáig pl. a budapesti Tilos Rádió is ilyen tömörítéssel volt jelen a neten.

ee04

Ezekről az eljárásokról és még számos társukról azt állították a képviselőik, hogy jobbak, mint az mp3, pedig többnyire csak másképp voltak rosszak. Te is meggyőződhetsz a különbségekről, mert az Audacity számos formátumot támogat.

A korai veszteséges tömörítők felpuhították a legmélyebb hangokat, azok nem a gyomorból szóltak, elveszítették meggyőző erejüket, lendületüket. A tranziens torzítások fémessé tették a hangot. A hangzás a túltömörítés következtében fedetté, fátyolossá vált. A cinek kifakultak, csillogás helyett csörömpölés hallatszott. Különösen a kis felbontásoknál az amúgy sem baba sztereó kép összenyomódott, lapossá vált.

Igen hamar nyilvánvaló lett, hogy e tömörítések helyébe újaknak kell lépni, aminek legutóbbi fejezete 2017-ben az mp3 licencdíjának hivatalos eltörlése volt, s az mp3-at fejlesztő csoport, a Fraunhofer Intézet is arra buzdította a felhasználókat, hogy más, fejlettebb eljárásokat használjanak – például az AAC-t.

ee05

Az AAC – Advanced Audio Coding – az egyik legelterjedtebb veszteséges hangtömörítés, amely az mpeg2 része. Az alapelvek az mp3-ra hajaznak, hiszen ugyancsak a Fraunhofer Intézetben folyt a fejlesztése, de számos új algoritmus kerülhetett bele, mert a számítógépek, a médiajátszók és az okos telefonok is gyorsultak, tehát ugyanannyi idő alatt több műveletet tudnak elvégezni. Mindössze néhány dollárba kerül egy olyan IC, ami az összes fontosabb eljárás kódolására és alkalmas, így az AAC változataira is.

http://www.vlsi.fi/en/products/vs1053.html

ee06

Az AAC fejlesztésének indításakor célul tűzték ki, hogy az mp3-hoz képest az 5.1 csatornás hang sokkal jobb minőségű legyen, mint a sztereó mp3.

Az első tesztek azt bizonyították, hogy 340 kb/s esetén a CD és a sztereó AAC hangját nem lehet megkülönböztetni. Ez persze egyrészt nem igaz, másrészt ilyenkor az AAC sem erőlteti meg magát, és az mp3-mal sem akkor volt nagy baj, amikor elég nagy volt a sávszélesség. A gond az internetes, folyamatos (stream) rádióadás esetén volt jelentős, és a nagyobb tömörítéseknél az AAC későbbi fejlesztései valóban sokkal jobbak, mint az mp3.

Annak érdekében, hogy az AAC az eltérő igényekhez alkalmazkodhasson, az eljárás modulárisan épül föl. Az áttekinthetőbb és gyorsabb működés miatt nincs az AAC-ben FFT, csakis MDCT. Az mp3 kódolás 576 részsávjával szemben az MDCT 1024 csatornára bontja a jelet, 23 Hz egy-egy csatorna sávszélessége.

A spektrális szóródásból adódó szivárgás csökkentésére a Kaiser-Bessel ablakozást is bevetették. Ennek matekjától megkíméllek, de hogy lásd, mennyire emberszámba veszlek, beavatlak a lényegébe.

Amikor az időképből spektrumképbe váltunk át, akkor egy szinusz jel spektrumképe egyetlen vonal lesz.

ee07

Ez mindig igaz, és ha a jel frekvenciájának egész számú többszörösével veszünk mintát, akkor valóban ez is az eredmény. Ha azonban a mintavételi frekvencia nem a jelfrekvencia egész számú többszöröse (márpedig csaknem soha nem az), akkor – számítási hibaként – a jelalak ugrani fog. Egy ilyen ugrás spektrumképe szélessávú zaj, ami eltorzítja, akár el is fedheti a többi alsáv jelét, mégpedig annál jobban, minél nagyobb a törésnél az ugrás.

ee08

Az ablakozó eljárások az ugrás nagyságát, ezáltal a szivárgást csökkentik. A Kaiser-Bessel ablakozás a legrugalmasabb módszer, ugyanis ha nincs ugrás, akkor békén hagyja a jelet, viszont minél nagyobb a hiba, annál keményebben dolgozik.

Az MDTC időablakának változtatása, (tehát, hogy mennyi ideig figyeli egy-egy alkalommal a jelet) lehetővé teszi a tranziens jelek pontosabb kódolását.

AZ AAC prediktív kódolást is tartalmaz.

Az egyszerű Huffman eljárás helyett adaptív Huffman kódolást használnak az AAC-ben. Az eredeti Huffmanban egyetlen kódtábla van, amiben statisztikai alapon „örökre” meghatározták, hogy általában milyen gyakorisággal fordulnak elő kódkombinációk, és ennek megfelelően rendelték az egyes kombinációkhoz a rövidebb (gyakoribb) vagy hosszabb (ritkább) kódszavakat. Az AAC algoritmusa folyamatosan elemzi az egymást követő kódokat, és a változó gyakoriságokhoz legjobban illeszkedő módon, 12 különböző kódtáblából válogat. Gondolj pl. arra, hogy az alábbi szövegben „e” a leggyakoribb, tehát az „e”-hez tartozik a legrövidebb kód.

„fekhely, melyre testedet leteszed, s elernyedhetsz.”

Ha ezt a szöveget egy versrészlet követné, akkor az „a”-hoz tartozna a legrövidebb kód.

„Lankatag angyalok aléló sikolya.”

Az AAC programja nemcsak az egyidejű, hanem az időbeli elfedéseket is figyeli. Ez azért hasznos, mert – miként a hallórendszerünk – meg tudja jósolni, hogy hogyan fog felépülni a hang, és ezzel az MDCT egyik hibáját – ami miatt az mp3-ban az ütős hangszerek maszatosak –, a nemkívánatos elő-visszhangot el tudja tüntetni. Ezt az algoritmust TNS-nek (Temporal Noise Shaping) hívják.

ee09
Az AAC a népszerűségét annak köszönheti, hogy az Apple az iTuneshez és az iPodhoz ezt választotta alapértelmezettként mind a filmek, mind a zenék hangjaként, és ezzel jól orrba vágta a Microsoftot, amelyik a mai napig szerencsétlenkedik a wma valamelyik továbbfejlesztett változatával. Nagy szomorúság lehetett a Microsoft számára, hogy az AAC-t a Windows Phone részévé kellett tenni.

A „gyalog” AAC azonban még nem hozta azt az eredményt 64 kb/s-on, amit az mp3 tudott 128 kb/s-on, ezért további fejlesztésekre került sor, immár az mpeg4 részeként.

Az eredeti AAC-hez adott első új modul a PNS - Perceptual Noise Substitution - volt. A zaj jellegű részeket ettől kezdve nem kódolják, csupán egy vezérlő jelet képeznek, ami a dekóderben mesterséges zajt állít elő.

Később még két fontos modult adtak hozzá: a spektrális sávismétlőt (SBR) és a parametrikus sztereót (PS). Az előbbiről már volt szó: periodikus jelek esetén a frekvenciatartományban csak az alaphangokat kódolják, a felhangoknak csak a számát és az egyes felhangok nagyságát adják meg.

A parametrikus sztereó hasonló az MS-hez, vagyis képeznek egy monó összegjelet, és az egyes hangcsatornák jeleinek ettől eltérő paramétereit külön kódolják. Abban tér el az MS-től, hogy a különbségi jelet prediktív módon állapítják meg, és hogy e jelet is szétbontják több paraméterre.

ee10

Ezekkel az új modulokkal és a régebbiek javításával el lehetett érni, hogy már 24 kB/s sebességgel is egészen tűrhető a hangminőség – persze, nem Hi-Fi, de telefonra jó az…

Az AAC kódolást te is kipróbálhatod, hiszen az Audacityben van AAC kódoló is. A paraméterek ugyan külön nem állíthatók, de a minőség széles határok között igen.

ee11

Az érzeti kódolás elveit foglalja össze az alábbi videó:

ee12

Az AAC messze nem az utolsó szó a digitális hang világában. Ugyanaz az alapítvány, amelyik az OGG-Vorbist fejlesztette, 2012-ben előállt az ingyenes és nyílt forráskódú Opus tömörítés végleges változatával.

ee13

Az Opus hangminősége nagyobb sávszélességnél jobb, mint az AAC-é, és már 6 kb/s-nál is érthető a beszéd. Az Opus legnagyobb előnye, hogy a beszédkésleltetés pici, 2,5 ms is lehet, ami szájszinkronhoz is alkalmassá tette. Az Opus kodeket a VLC lejátszó is tartalmazza.

ee14

És most jön a világ szégyene. Az Opus fejlesztésének legjelentősebb támogatója a Skype alapítvány volt.  2011-ben azonban a Microsoft 8,5 milliárd dollárért megvette a Skype-t, és azóta szó sincs már arról, hogy a sokkal jobb minőségű Opust belerakná.

ee15

Az Apple-nak sem érdeke az AAC-t kidobni, hiszen az Opusból hiányzik a kufárok számára leglényegesebb funkció: a másolásvédelem.

ee16