.Cs.Kádár Péter - XXI. századi Diszkónika, 97. Érzések és veszteségek

A veszteséges hangtömörítések nemcsak azért veszteségesek, mert a tömörített filéből nem lehet visszaállítani az eredeti jelet. Sokkal nagyobb veszteség, hogy aki csakis ilyen módon tömörített felvételeket, műsorokat hallgat, ezeken nő föl, annak számára ez lesz a természetes. Nem fogja érezni, hogy valami hiányzik belőlük, ami paraméterekkel nem is mindig írható le. 

 

Ha ezek az emberek időnként ennél sokkal valóságosabb hangzással szembesülnek, az igazit fogják torznak hallani, miként ezt már számos felmérés bizonyította. Sőt, többet is bizonyított: azt, hogy minél többször kell elviselnünk a veszteségesen tömörített hangot és képet, annál följebb megy az ingerküszöbünk is, és annál kevésbé vesszük észre azt a sok-sok érzelmi megnyilvánulást, apró árnyalatot, ami a másik ember viselkedésében, mozdulataiban, arcán megfigyelhető lehetne. Bunkósodunk, hiszen a sokszínűség helyett csak egy agresszív szeletkét kapunk, ha egyfolytában a fülünkben van a bömbölő dugó.

A veszteséges hangtömörítési módokat a kényszer szülte. Az a kényszer, hogy pár évtizeddel ezelőtt még lassú volt az internet, és kicsi volt a tárhely a számítógépeken. Kellett hát találni olyan megoldásokat, amelyekkel a filék mérete az eredeti PCM-hez – wavhoz vagy aiffhez – képest a tizedére vagy még jobban csökkenthető. Ehhez két módszer vezetett: egyrészt a már megismert redundancia csökkentése, másrészt az észlelés szempontjából lényegtelen, tudálékosan irreleváns tartalmaknak az eldobása. Vagyis a fejlesztők igen jelentős mértékben felhasználták a pszichoakusztikai ismereteket – véleményem szerint bármilyen csodálatos érzeti modelleket is alkottak, valójában visszaéltek ezzel a tudással. Ismétlem, nem gonoszságból, hanem kényszerűségből. Amikor e sorozatban gyakran találkozhatsz veszteségesen tömörített hangpéldákkal, az sem azért van, mert kedvelem e tömörítéseket, hanem mert egyelőre ezeket tudja lejátszani a szerver. De bevallom, néha sokáig kell masszírozni a filéket, hogy azt demonstrálják, amit mutatni akarok neked.

A veszteséges hangtömörítések mindegyikében használnak tehát valamilyen pszichoakusztikai modellt. Ezek a modellek elsősorban az elfedésre épülnek. Az egyszerűbbek csak az egyidejűekre – a hangos elfedi a halkat, az erős zaj a hasznos jelet, a hasznos jel a zajt, az erős zaj a gyenge zajt, a mély hang a magasat, stb. A bonyolultabbak az időbelieket is figyelik – elő- és utóelfedés. Mivel az elfedések következtében nem kell törődni a fedél alatti hanggal (dinamikus hallásküszöb), ezért a jel-maszk viszonytól (SMR) függően, kevesebb bit is elég a tároláshoz vagy átvitelhez.

ev02

Az érzeti modellek mindig felosztják a hallástartományt frekvenciasávokra. Az egyszerűbbek esetén ez önkényes, a jobbakban a kritikus sávoknak felel meg. E sávokban külön-külön nézik a jel-maszk viszonyt, és ha egy adott sávban nincs hasznos jel, azt nem kódolják. Léteznek olyan eljárások is, amelyek a binaurális felfedést is modellezik.

Az így nyert jelekből a csatornát jobban kihasználó, jobb jel-zaj viszonyt eredményező adatszerkezetet készítenek (bit kiosztás). A halláshoz jobban igazodik a nem lineáris kvantálás, vagyis a kisebb jelek esetén sűrűbbek, a nagyobbaknál ritkábbak a lépcsők. Lehet hozzájuk járulékos adatokat, metaadatokat (szerző, cím, előadók, hangosságnormalizálás, stb.) csatolni.

A még nagyobb tömörítés érdekében veszteségmentes tömörítő módszereket is hasznának a folyamat végén. Aztán minden adatot összecsomagolnak, így jön létre a kimeneti adatfolyam. A biztonság kedvéért van a csomagban hibafelismerő, a modernebbekben hibajavító rész is. Noha a hibajavítással nő a filé mérete, még mindig sokkal kisebb, mint a tömörítetlené volt.

ev03

A legelterjedtebb és egyben az egyik legegyszerűbb veszteséges tömörítés az mp3. Sokan leírták már a történetét, sőt, magát a formátumot is leírták, eltemették már egy félreértés miatt. Az mp3 azonban még sokáig nem fog kipusztulni, noha mai szemmel nézve eléggé ócska és elavult.

ev04

ev05
Az érzeti modell a spektrális összetevőket 32 sávra osztja. Az MDCT-kkel további 18 összetevőt képez mindegyik sávban, így 576 sávunk lesz. Minden összetevőt nemlineárisan kvantál, a kimenetet pedig Huffman-kódolással tömöríti.

Az elkerülhetetlen idő- és frekvencia tartománybeli felbontási különbség miatt az mp3-ban kétféle MDCT blokk van: a hosszú blokk, amely 37, és a rövid blokk amely 12 mintából áll. A rövid blokk javítja az idő tartománybeli felbontást, így megbirkózik a tranziensekkel.

Az FFT 1024 frekvenciát elemez. Ezeknek amplitúdó értékeit adja tovább a maszkolási küszöböt figyelő résznek, amelyből egy-egy frekvencián vagy a küszöb feletti jel jön ki, vagy a küszöbérték, jelezvén, hogy azon a frekvencián nem hallunk semmit, nem kell kódolni.

A modell szétválasztja a tonális (periodikus) és a zaj jellegű összetevőket, mert ezek maszkolási karakterisztikái eltérőek. A zajokat inkább az időtartományban, a tonálisakat a frekvenciatartományban kódolja

Kiszámítja az SMR-t, és átadja a bit (vagy zaj) optimalizálási résznek a kódolóban. Az iterációs hurok feladata, hogy a kvantálásból származó torzítást, ahogy annak idején megismerted a nevét, a kvantálási zajt a lehető legkisebbre csökkentse.

Az mp3 akár folyamatosan is tudja váltogatni a bal-jobb és az MS kódolást, és a kódolón az összekapcsolt sztereó (joint) üzemmód is beállítható.

Az mp3 filé egy CRC nevű kódrészt is tartalmaz. Ez egy igen jó hibafelismerő algoritmus. Lejátszás előtt a dekóder ezzel vizsgálja meg, hogy van-e adatvesztés a filében, és ha van, el sem indul a nóta. Sajnos, ez az eljárás hibajavításra nem alkalmas.

Az mp3 kidolgozói nem határozták meg, hogy milyen módon kell létrehozni a filét, ezért az mp3 hangminősége viszonylag széles határok között változtatható. Persze, még a legjobb, de legtöbb helyet igénylő változat is elmarad a CD minősége mellett, de az alkotók sosem állították, hogy az mp3 ugyanazt tudja, mint a CD.

ev06

Annak idején egy CD-n rögzített szóló énekhez viszonyították az mp3 veszteségeit. Azért ehhez, mert egyrészt éneket mindenki hallott már, másrészt az énekben nagyon sok a nemperiodikus, zajjellegű hang – pl. a h, p, t, c, cs, k, ty, f, sz, s. Ezeket nehéz jól kódolni.

Hogy mit dobott el a kódoló, arról készült egy nagyon érdekes klip, amely egyben vizuálisan is próbálja érzékeltetni a veszteségeket.

Készítettem én is néhány mp3-as filét egy wavból, amit becsomagoltam a kabaré nevű zipbe, és le kell töltened innen: http://osztott.com/sEDf

Kibontás után láthatod, hogy az egyik filé az eredeti wav, a többiek pedig más és más tömörítéssel készültek, de mindegyik összekapcsolt sztereó. Érdemes az alábbi sorrendben meghallgatnod őket, persze, valami jobb cuccon.

ev07
Azt fogod tapasztalni, hogy még a legpocsékabb se annyira rossz, mint egy okosteló hangja. De azért nehogy már az legyen a mérce!

Az MP3 kódolást végző szoftvert drágán, a dekódolót viszont olcsón adták volna – ám egy ausztrál diák lopott hitelkártyaszámmal megvásárolta a kódoláshoz szükséges algoritmust, majd a világhálón bárki számára elérhetővé tette. Ezért te is készíthetsz mp3 filéket, pl. az Audacityvel. Ehhez le kell töltened a lame tömörítőt. Szerencsére, ha a beállítások programkönyvtárának letöltés gombjára böksz, egyből a megfelelő helyre ugrik a program.

 ev08

http://manual.audacityteam.org/man/faq_installation_and_plug_ins.html#lame

ev09
Innen újabb ugrás:

http://manual.audacityteam.org/man/installing_and_updating_audacity_on_windows.html#winlame

ev10

Majd az utolsó:

http://lame.buanzo.org/#lamewindl

ev11

S már indulhat is a letöltés. Telepítéskor a cucc felajánlja az Audacity mappát.

ev12

Ha ezután megnyomod a „keresés” gombot, az Audacity önmagától berakja a dll-t a helyére.

ev13

Tölts be egy nótát az Audacitybe, és válaszd ki a „Fájl” legördülő menüből a „Hang exportálása…” lehetőséget!

ev14

Alul beállíthatod a tömörítés paramétereit. Javaslom a „megszállott”, (320 kb/s) és a VBR (változó kvantálás) használatát. A mentés megkezdése előtt még kitöltheted a metaadat táblát, aztán valóban indul a konvertálás.

 ev15