Cs. Kádár Péter - XXI. századi Diszkónika, 502. Fourier megint közbeszól
Claude Elwood Shannon, az információelmélet atyja mondta a diákjainak, hogy ha egy bonyolult problémával állunk szemben, próbáljuk meg a feladatot apró részekre bontani, oldjuk meg ezeket a részeket, és a részmegoldásokat összegezve talán megoldhatjuk magát a problémát.
A látást illetően az volt a kérdés, hogy milyen módszerekkel választja ki a látásunk agyi feldolgozása a fontos látnivalókat a lényegtelenektől, a zajból. Az elképzelést az agybeli hangfeldolgozásból merítették, hiszen azt te is tudod, hogy a hallási folyamat során frekvenciaelemzés történik, a hangokat képesek vagyunk azok frekvencia összetevőire bontani, ezért tudjuk az összetett hangokat – pl. egy akkordot – megkülönböztetni egy tiszta szinuszos hangtól. Azt is tudod, hogy a periodikus hangjelenségeket gyakran még akkor is ki tudjuk szűrni a zajból, ha a zaj hangereje nagyobb a periodikus jelénél.
Azt szintét tudod, hogy az összetett periodikus vagy kváziperiodikus, tehát nem zajszerű jeleknek az frekvencia szerinti összetevőkre való bontását, a frekvenciaanalízist Jean-Baptiste Joseph Fourier dolgozta ki, és ugyancsak ő jelentette ki később elsőként, hogy véges számú szinuszos jel megfelelő összegzésével összetett jelek állíthatók elő. Ezen elvek szerint működnek a legrégebbi, additív szintetizátorok (lásd a sorozat 218. részét) és a szubtraktív szintetizátorok (lásd a sorozat 219. részét.)
A tudósokra jellemző, hogy ha feltételeznek valamit, akkor addig kutakodnak, ameddig találnak valami bizonyítékot is a feltevésükre, legfeljebb később kiderül, hogy melléfogtak. A retinakép elemzése szempontjából a Fourier-analízis vonzó eszköznek tűnik, s ugyanígy az is, hogy az elemzéssel meghatározott komponensek újrakombinálásával – a Fourier-szintézissel – az eredeti kép információveszteség nélkül visszaállítható. A téri frekvencia látás (angolul: spatial frequency vision) a látásélettan egyik fontos fogalma, amely azt írja le, hogy a szem (illetve az agy) milyen mértékben képes érzékelni a különböző részletgazdagságú vizuális mintázatokat, például csíkokat, rácsokat, textúrákat.
A téri frekvencia tehát azt adja meg, hogy egy adott irány mentén egységnyi távolságon (általában fokonként a látótérben) hány világos-sötét váltás, más néven ciklus található. Mértékegysége: ciklus/fok (cycles per degree, cpd). Az emberi látórendszer kb. 0,1–60 cpd tartományban érzékeli az ingereket. Alacsony a téri frekvencia nagyméretű mintázatok, lassan váltakozó világos-sötét területeken, pl. nagy foltokon, széles sávokon. Magas a téri frekvencia az apró részleteken, finom mintázatokon, pl. vékony csíkokon, apró textúrákon. A vizuális rendszerünk különböző idegsejtjei specializálódtak az eltérő téri frekvenciák feldolgozására. Az alacsony téri frekvenciák általában a globális szerkezet, formaérzékelés, mozgásérzékelés szempontjából fontosak. A magas téri frekvenciák a finom részletek, kontúrok, élek észlelésében játszanak szerepet. Az alábbi ábra bal oldalán látható szinuszhullám téri frekvenciája alacsonyabb, mint a jobb oldalon láthatóé.

1969-ben Fergus William Campbell és Colin Blake angol pszichofizikusok olyan kísérleti bizonyítékra bukkantak, amely az emberi látórendszerben a téri frekvenciacsatornák (s így a Fourier-elemzés) létezésére utal. A bizonyíték azon alapszik, hogy ha egy adott téri frekvenciájú és irányulású szinuszrácsot sokáig nézünk – vagyis adaptálódunk –, akkor az adaptáció utáni érzékenységünk csökken az adott rácsra, de változatlan marad az eltérő frekvenciájú vagy irányulású rácsokra. Ezt a jelenséget hívják szelektív adaptációnak, magyarázata pedig a téri frekvenciacsatornák érzékenységváltozásában rejlik. A téri frekvencia látás egyik legfontosabb mérőeszköze a kontrasztérzékenységi függvény (Contrast Sensitivity Function, CFS), amely azt mutatja meg, hogy az emberi látórendszer milyen kontraszt mellett képes különböző téri frekvenciájú mintázatokat észlelni.
Az ember legérzékenyebb a középtéri frekvenciákra, kb. 4-6 cpd-re. Nagyon alacsony vagy nagyon magas téri frekvenciákra csökken az érzékenység, ezért nem látjuk jól sem a nagyon apró részleteket (pl. vékony csíkokat), sem a nagyon elmosódott, nagy folt-szerű mintázatokat, ha azok kontrasztja kicsi.

A fenti ábrasorozat az emberi látórendszer kontrasztérzékenységét demonstrálja. A téri frekvencia balról jobbra növekszik; az egyre vékonyodó „csíkok” egyre gyakrabban ismétlődnek. A rács kontrasztját meghatározó amplitúdó, vagyis a sötét és világos „csíkok” közötti kontrasztkülönbség pedig fölülről lefelé. Annak ellenére, hogy a kontraszt egyenletesen változik fölülről lefelé nő, a megfigyelő számára egy fordított U alakú görbe rajzolódik ki, amely alatt még igen, de fölötte már nem látja a rács ismétlődő mintázatát. Ez a görbe a kontrasztérzékenységi görbe, melynek sematikus ábrázolását látod a fölső grafikonon. A görbe csúcsa 5 cpd körül van, ami megfelel a betűk téri frekvenciájának olvasótávolságból. Ha egy adott frekvenciájú szinuszrácsot sokáig szemlélünk, tehát szelektíven adaptáljuk látórendszerünket, akkor erre a frekvenciára csökkenni fog az érzékenységünk. A csökkent érzékenységet illusztrálja az alsó grafikon. A szelektív adaptáció jelensége arra utal, hogy a kontrasztérzékenységi görbéért a független, csak egyes téri frekvenciasávokra érzékeny csatornák felelősek.
A következő ábra a Szirakuzai Egyetem Érzékszervi Kutatóintézete kutatásainak eredményét mutatja, 1994-ből. (Ez az intézet jelenleg a NASA-hoz tartozik.)

Az olvasás során használt téri frekvenciacsatorna illusztrációjában az azonos méretű, de fölülről lefelé egyenletesen csökkenő kontrasztú betűk háttérben sávonként különböző téri frekvenciájú zaj van. A zaj itt is hasonlóan elfedő hatású, mint a hallás kritikus sávjaiban, ha emlékszel még a sorozat 65. részére. Az előző ábrának megfelelően, itt is fordított U alakú görbe alakul ki. A jelenség nem függ attól, hogy milyen messziről nézzük a betűket.
A téri frekvencia koncepcióját sűrűn alkalmazzák a digitális képfeldolgozás során és a veszteséges videótömörítőkben.
A pszichofizikai csatornák méréseken alapuló, hipotetikus, tehát feltételezett mechanizmusok. Kérdés, hogy ezek miként viszonyulnak a retina és a V1 sejtjei által végzett képfeldolgozáshoz. Mind a retinának, mind a V1 idegsejtjeinek apró receptív mezői vannak. Ezekről nehéz feltételezni, hogy globális Fourier analízist hajtanának végre. Az azonban lehetséges, hogy egyes, nagyobb receptív mezővel rendelkező sejtek lokális téri frekvenciaelemzést végeznek. Miután a retinális és V1-beli receptív mezők méretbeli változatossága jelentős, alkalmasak arra, hogy ezt az elemzést több téri frekvencián végezzék el. A csatornák függetlenségét, s egyes, az ember számára fontos funkciók végrehajtásában való jelentőségét maszkolási kísérletekkel támasztották alá.
Gyakran láthatsz olyan képeket, amelyeken az arc nagy részét apró kockákból álló mintázattal töltik ki, hogy ne legyen megállapítható az illető személyazonossága. Azért kezdték alkalmazni ezt az eljárást, mert egyrészt könnyű a kép átalakítását elvégezni, még a PhotoShop szűrőinek kezelését sem kell megtanulni hozzá, sőt, a ChatGPT is tud ilyet: „Arc maszkolását kockákkal (pixelációval) többféleképpen is meg tudom oldani. Ha képet töltesz fel, az alapján tudok egyből maszkolt verziót készíteni, ahol az arc területét "kockázom ki" (pixelate). Kérlek, töltsd fel a képet, amit szeretnél maszkolni! Ha több arc van rajta, azt is meg tudom oldani, mindet ki tudom takarni kockákkal. Várom a képet!” Nem kellett sokat várnia, ahogy nekem sem, pillanatok alatt elkészült a kikockázott kép.

Kevesen tudják azonban, hogy először Julesz Béla magyar származású pszichológus és Leon D. Harmon közösen végeztek kutatásokat a vizuális textúra és mintázatészlelés témájában az 1960-as és 1970-es években.

Kísérleteik célja az volt, hogy feltárják, hogyan dolgozza fel az emberi vizuális rendszer az alakzatokat és textúrákat, különösen olyan környezetben, ahol az egyes részletek kevésbé kivehetők. 1973-ban alkalmazták a kockázásos eljárást annak vizsgálatára, hogy az arcfeldolgozáshoz milyen téri frekvenciacsatornákat használ az ember. Felosztották a képet egyenlő méretű kockákra, s a kockákon belül egyszerűen kiátlagolták a kockán belüli intenzitásértékeket. Úgy tűnt, a kockák méretétől függ, hogy milyen erősen maszkol az eljárás.
Ez azonban mégsem ilyen egyszerű. Nem csupán a kockák mérete, hanem a kockák éleinek téri frekvenciatartalma a meghatározó tényező, s aki ennek tudatában van, olykor könnyedén kiderítheti, hogy kit ábrázol a maszkolt kép. Sok esetben elegendő, ha egyszerűen hunyorítasz vagy lehelsz a szemüvegedre, s a hunyorítás vagy maszatos szemüveg segítségével homályossá tett képen egyszer csak előtűnik a felismerhető arc. Ez azért van, mert a kép homályossá tétele során a kép magas téri frekvenciájú részletei eltűnhetnek. Így eltűnhet például a kockák éleinek információja. Mivel az élek magas frekvenciájú információja maszkolta elsősorban az arcot, s mivel a kép még mindig elegendő információt hordoz az arcról, a személy felismerhetővé válik.
Ma már sokkal egyszerűbb valamilyen mesterséges intelligenciát használni a maszkolás eltüntetéséhez, amilyen pl. a Topaz Gigapixel. Ez a program feltörve az ncore.pro-ról is letölthető, de én nem próbáltam ki. Kérlek, te is csak akkor használd, ha nem kufárkodsz vele!

A ChatGPT is tud ilyet, de bevallja, hogy neki nem mindig sikerül. Az alábbi visszaállításhoz az észak-karolinai Duke Egyetem kutatói a PULSE nevű rendszert használták. Ez úgy működik, hogy két, úgynevezett neurális háló (hogy ez mi, arról is lesz majd szó egyszer) ugyanazt az arckép adatbázist vizsgálja, és próbálja kipótolni a hiányzó részleteket. Mivel a két hálózat által generált képek összehasonlításával folyamatosan finomhangolódik az arckép, a végeredmény sokkal nagyobb eséllyel hasonlít majd az eredeti, rossz minőségű fotó alanyára. Ezt illusztrálja az alábbi animáció is.

A több téri skálán való információkezelés lehetővé teszi az alacsony szintű vizuális információ olyan méretfüggő kódolását, amelyben minden rész és az egész – minden fa és az erdő – reprezentálódik. Ez pedig – ugyanúgy, mint az M és a P (lásd a sorozat 497. részét) ganglionsejtek munkamegosztása – kitágítja azt az ingertartományt, amelyen belül jó felbontású képfeldolgozásra vagyunk képesek.
Az irányulásszelektivitásnál vagy orientációs szelektivitásnál leírt elképzelés (lásd a sorozat 499. részét) annyiban különbözik a téri frekvenciaelemzéstől, hogy nem idealizált hipotetikus csatornákat, illetve „szűrőket” keres, hanem konkrét ingertulajdonságokat kódoló-dekódoló sejteket, sejtcsoportokat képzel el.

Az irányulásszelektivitás tekinthető alapvetőbbnek, mert közvetlenül kapcsolódik a kontúrok, élek és irányok detektálásához — ezek pedig elengedhetetlenek ahhoz, hogy a vizuális rendszer a képet feldolgozza. A téri frekvencia érzékenység ezzel egyidejűleg szintén fontos, de részben a képi információ komplexitására, részletezettségére vonatkozik, míg az irányulásszelektivitás inkább a forma- és kontúrfelismerés alapkérdése. Ha beszélni tudna, egy konkrét irányulásszelektív neuron azt mondhatná: „Nekem csak a függőleges vonalak érdekesek.” Egy konkrét téri frekvenciaérzékeny neuron viszont így szólhatna: „Nekem csak a finom részletek érdekesek.” Egy képben egyszerre van jelen az irány (pl. függőleges vagy ferde vonalak) és a téri frekvencia (pl. vastag vagy vékony vonalak) is, így az agyunk mindkét információt használja a kép feldolgozásához.

S még egy érdekesség: a kétféle neuron „gondolatait” szintén új játékszerem, a ChatGPT osztotta meg velem. Megpróbáltam kideríteni, honnan vette, de nem sikerült. Ám annyira szellemes, hogy ettől kezdve azt mondom, én találtam ki.