Martin Takáč, 6. 12. 2000

 

Výpočtový prístup k videniu

 

Teoretické a metodologické východiská - výpočtový model

Problém vizuálneho vnímania - videnia možno definovať rôzne. Študovať ho možno z hľadiska filozofického, biologicko-evolučného, neurofyziologického, psychologického a aj informatického. V kognitívnych vedách sa uplatňuje multidisciplinárny prístup - len integrácia poznatkov všetkých relevantných vied môže prispieť k dostatočnému objasneniu problému.

Na dôsledné objasnenie nejakého fenoménu sa ukazuje ako vhodný výpočtový model - dvojica “počítač - softvér” sa použije ako metafora pre mozog a v ňom prebiehajúci proces. Ak sa hypotéza o tom, ako asi vyzerá kognitívny proces skúmaného fenoménu vyjadrí vo forme algoritmu, teda postupnosti krokov a tá sa implementuje a spustí na nejakom zariadení, výsledné správanie zariadenia by malo zodpovedať správaniu modelovaného organizmu. Takto sa ponúka možnosť experimentálnej verifikácie hypotéz, ktoré by inak mohli zostať na špekulatívnej úrovni. Samozrejme, celý výpočtový model má byť navrhnutý tak, aby v maximálnej miere zodpovedal experimentálne získaným poznatkom o modelovanom fenoméne - teda v prípade kognitívneho modelovania najmä poznatkom z neurofyziológie a vykonaným psychologickým experimentom.

Metodologické princípy výpočtového prístupu k videniu sformuloval David Marr v sedemdesiatych rokoch. Teória, ktorá má objasniť nejaký fenomén, musí podľa neho obsahovať tri úrovne analýzy:

  1. Informačná teória: čo je cieľom modelovaného procesu, čo je vstupom, čo má byť výstupom, aké obmedzenia platia pre proces. V prípade videnia zahŕňa aj samotnú definíciu vizuálneho percepčného procesu - čo to znamená vidieť.
  2. Algoritmus: detailný popis jednotlivých krokov - ako vidíme.
  3. Implementácia: ako je proces fyzicky realizovaný na neurofyziologickej úrovni u organizmu, resp. v softvéri a hardvéri počítača.

 

Informačná teória - Formulácia problému videnia

Videnie definujeme ako konštrukciu modelu sveta na základe svetelných vzorov dopadajúcich na sietnicu, t.j. vytvorenie symbolickej reprezentácie videného umožňujúcej adekvátne správanie. Napr. pre robota pohybujúceho sa v nebezpečnom teréne vidieť znamená spracovať obrazy snímané jeho kamerami tak, aby rozpoznal a lokalizoval jamy a prekážky.

 

Algoritmus - popis jednotlivých krokov percepčného procesu

Marr vymedzil v procese od dopadnutia svetla na sietnicu až po identifikáciu videných objektov niekoľko etáp. Výsledkom spracovania jednotlivých etáp sú tzv. náčrty (skice): prvotný náčrt (primal sketch), dva a pol-rozmerný náčrt (2,5D sketch) a trojrozmerný model. Jednotlivé etapy sa ešte delia na kroky, ktoré teraz opíšeme podrobnejšie.

1.1. Vytvorenie poľa intenzít

Prvým krokom je fyzikálna interakcia medzi svetlom dopadajúcim na sietnicu a vizuálnym pigmentom v bunkách sietnice. Odpovede retinálnych buniek (alebo analogicky elektronickej kamery) v princípe zodpovedajú dvojrozmernému poľu hodnôt intenzity v príslušných bodoch svetlocitlivého povrchu.

1.2. Lokalizácia zmien intenzity

Ak privrieme oči, môžeme pozorovať, že scéna je tvorená oblasťami rôznej intenzity - svetlejšími a tmavšími. Intenzita sa obvykle ostro mení na hranách objektov a - ako dokazujú rôzne schematické kresby - hrany sú významným kľúčom pri vnímaní. Vizuálny systém teda v tomto kroku analyzuje pole intenzít a hľadá hranice regiónov rôznej intenzity. Samozrejme, nie každá zmena intenzity zodpovedá hrane objektu - niektoré vznikajú zmenou osvetlenia, tieňom a pod., úlohou vizuálneho systému je preto aj určiť, ktoré hranice regiónov zodpovedajú skutočným hranám. Keďže zachytený obraz vždy obsahuje určité množstvo šumu - obraz sa “vyhladzuje” napr. nahradením každej hodnoty v poli priemerom medzi susednými hodnotami. Zmeny intenzity zodpovedajúce hranám sa detekujú pomocou tzv. gradientu a v grafe zmeny gradientu zodpovedajú prechodom cez nulu (zero-crossing).

V prospech teórie "zero-crossings" svedčia aj neurofyziologické poznatky. Na sietnici sú gangliá buniek spracovávajúce informácie z kruhovo usporiadaných retinálnych receptorov spôsobom, ktorý zodpovedá kombinácii vyhladzovania šumu s prípravou pre detekciu prechodov cez nulu. Tá pravdepodobne nastáva vo vizuálnej kôre mozgu, kde, ako ukázali nositelia Nobelovej ceny neurofyziológovia Hubel a Wiesel, sú bunky aktivované svetlými čiarami istej orientácie vo vizuálnom poli.

1.3. Prvotný náčrt

Výsledkom vyššie opísaných krokov vizuálneho procesu je v Marrovom modeli tzv. prvotný náčrt - symbolická reprezentácia paličiek, hrán a regiónov rovnakej intenzity. Podobné susedné prvky sa grupujú do čiar a väčších útvarov a tento proces sa opakuje Vizuálne obrazy sú organizované samovoľne - bez vedomého úsilia. Na obr. 1 sa nám spontánne organizuje obraz do kruhov niekoľkými spôsobmi, ktoré si navzájom konkurujú.

Ako sú tieto procesy implementované v ľudskom mozgu nie je známe - musia byť totiž veľmi rýchle, aby umožňovali “on-line” reagovanie. Spracovanie poľa intenzít veľkosti napr. 1000 x 1000 bodov, kde sa pri vyhladzovaní šumu berú do úvahy susedné body, je veľmi náročné na čas.

Keby organizmus používal na orientáciu vo svete výsledok iba tejto fázy spracovania videného, vnímal by svet zhruba ako mucha. Ako opísal Werner Reichardt, riadenie letových aktivít muchy je založené na rýchlych automatických mechanizmoch spúšťaných pohybom čiernej škvrny vo vizuálnom poli (sledovanie inej muchy) alebo náhlou expanziou vizuálneho poľa (pristávanie).

2.1. Vnímanie hĺbky - stereopsia

Hlavným kľúčom pre určovanie hĺbky je disparita - rozdiel medzi obrazmi vnímanými ľavým a pravým okom. Ak zaostríme oči na nejaký bod, tento sa vždy premietne do stredu sietnice každého oka, kde je najväčšia hustota fotoreceptorov. Ostatné viditeľné body sa takisto premietnu na sietnicu vo vzdialenostiach od stredov a smeroch zodpovedajúcich vzdialenostiam od fixovaného bodu (viď obr. 2). Na rekonštrukciu relatívnej hĺbky bodu potom postačí trigonometria.

Je tu ale háčik: skôr ako môžeme merať disparitu musíme vedieť, ktoré body v obrazoch z ľavého a pravého oka si navzájom prislúchajú, teda vznikli projekciou toho istého vzoru. Hľadieť na to isté miesto v oboch obrazoch (teda na sietniciach) nemá zmysel práve kvôli disparite. Ostávajú dva spôsoby:

Ktorý prístup je teda plauzibilnejší? Ponúka sa experimentálna taktika:

  1. Skúsime, či je systém schopný vnímať hĺbku, ak nie je žiadna možnosť využitia poznatkov vyššej úrovne. Ak to dokáže, bude to potvrdením, že prístup zdola nahor je postačujúci.
  2. Skúsime, či je systém schopný vnímať hĺbku aj ak je vstupný obraz veľmi zašumený. Ak to dokáže, proces nemôže závisieť len na kvalite vstupných dát a teda zahŕňa aj informáciu “zhora nadol”.

Kľúčový experiment v tomto smere urobil Julesz: Pozorovaním stereogramov - počítačom zhotovených obrázkov zložených z “náhodných” bodov (samozrejme tak aby simulovali disparitu) - dokázal, že stereopsia môže vznikať zdola nahor čisto na základe disparít bez akejkoľvek viditeľnej štruktúry objektov. Ako ukázali Frisby a Clatworthy, informácia zhora nadol nezlepšuje stereopsiu - u ľudí, ktorí dostali vopred informáciu o tom, čo majú v stereograme vidieť, nenastával efekt hĺbky rýchlejšie ako u neinformovaných.

Istá principiálna informácia môže pri párovaní obrazov predsa len pomôcť:

Princíp jedinečnosti: Jeden objekt nemôže byť súčasne na dvoch miestach, t.j. bod v obraze videnom jedným okom možno spárovať s práve jedným bodom v obraze videnom druhým okom.

Princíp spojitosti: Keďže povrchy objektov sú väčšinou nepriehľadné a relatívne hladké, susedné body v obraze obvykle zodpovedajú bodom v približne rovnakej hĺbke (vzdialenosti od oka).

Podľa Marra sú tieto princípu zabudované do mozgu, t.j. vrodené. Marr a Poggio implementovali počítačový program na analýzu stereogramov na základe týchto princípov, keď však vezmeme do úvahy potrebné množstvo výpočtových operácií a relatívne malú rýchlosť šírenia vzruchov medzi neurónmi, zdá sa tento model videnia neplauzibilný. Ako teda funguje reálna stereopsia u človeka? Zhrňme čo doteraz vieme:

Stereopsia zrejme funguje zdola nahor, nie je však jasné na akých vstupných dátach. Intenzity svetla v poli môžu byť ovplyvnené osvetlením a nezodpovedajú presne fyzikálnym povrchom. Princíp spojitosti je ale založený práve na vlastnostiach povrchov objektov, vstupnými dátami by teda malo byť niečo bližšie k reprezentácii povrchov. Z neuropsychológie (Colin Blakemore) vieme, že vo vizuálnej kôre cicavcov sú stĺpce buniek, kde každá zodpovedá rôznej disparite pre rez obrazu v istej výške. Nevieme však medzi čím sa určuje disparita. Isté je, že stereopsia môže byť vykonávaná na prvkoch základného náčrtu a že procedúra párovania pracuje na vrodených princípoch odvodených z povahy fyzického sveta.

2.2. Ďalšie kľúče pre stereo-videnie

Gibson tvrdí, že zdrojom informácií o hĺbke a orientácii povrchov sú gradienty v textúre (obr. 3). Hoci bolo implementovaných niekoľko počítačových programov pracujúcich na tomto princípe, o tom, ako interpretuje gradient textúry ľudský vizuálny systém, je známe veľmi málo.

Ďalšie kľúče - vzdialené objekty sa javia ako zahmlenejšie, modrejšie a sú obvykle vo vizuálnom poli vyššie; rovnobežné čiary sa v diaľke spájajú, atď.

Tvar objektov možno zrekonštruovať aj z ich pohybu - Ullman uvádza nasledujúci pokus: na plátno sa premieta sada bodov. Kým sú statické, pozorovateľ vidí iba náhodne rozhádzané body. Keď sa začnú pohybovať, vytvárajú efekt dvoch rotujúcich valcov (viď obr. 4). V skutočnosti žiadne valce nie sú, premietajú sa len animované body, ktorých dráhy sú počítačom vypočítané tak, aby budili príslušný dojem.

2.3. Dva a pol rozmerný náčrt

Na riešenie ťažkého problému videnia nás evolúcia vybavila vrodenými princípmi, ktoré pomáhajú pri určovaní hĺbky zo základného náčrtu. Explicitnú reprezentáciu o relatívnych hĺbkach a orientácii (z hľadiska pozorovateľa) každého viditeľného povrchu v scéne Marr nazýva dva a pol rozmerný náčrt (viď obr. 5).

3. Trojrozmerný model

Naším cieľom je porozumieť ľudskému videniu tak, aby sme mohli implementovať podobný systém napr. v robotovi. Výsledkom výpočtového procesu videnia je symbolická reprezentácia trojrozmerného sveta, z ktorej je explicitne zrejmé čo je kde. Ide teda o identifikáciu objektov na základe ich tvarov a určenie ich relatívneho umiestnenia v priestore.

3.1. Identifikácia objektov

Pri konštrukcii úplného trojrozmerného modelu sa využívajú poznatky získané skúsenosťou. Nie celý objekt musí byť viditeľný a predpoklady o jeho “odvrátených stranách” prijímame na základe našej kultúrne podmienenej skúsenosti. Vizuálny systém konštruuje opis vnímaného objektu a porovnáva ho s akýmsi mentálnym katalógom prototypov - trojrozmerných tvarov objektov (viď obr. 6). Tento proces prebieha ne nevedomej úrovni a stretávajú sa v ňom prístupy zdola nahor a zhora nadol: špecifická črta časti nejakého objektu môže slúžiť ako kľúč na určenie prototypu a ten sa potom zhora nadol použije na dourčenie zvyšku figúry.

Na verifikáciu oboch prístupov môžeme použiť rovnakú experimentálnu metódu ako vyššie: ak je proces identifikácie objektov úspešný aj pri zašumenom obraze, môže závisieť na informácii “zhora”. Na obr. 7, ktorý na prvý pohľad vyzerá ako náhodné machule, je pes, ktorý vetrí zem v tieni stromu. Táto informácia by mala stačiť, aby ste psa na obrázku identifikovali.

Keďže ten istý objekt možno identifikovať z rôznych uhlov pohľadu, Marr a Nishihara navrhujú, že tvar objektu by nemal byť špecifikovaný vzhľadom na súradnicový systém pozorovateľa (ako je to v 2,5D náčrte), ale vzhľadom na objekt samotný. Trojrozmerný model je pre nich reprezentovaný hierarchiou objektov zložených zo zovšeobecnených kužeľovitých tvarov. Model je organizovaný okolo hlavnej osi “tela” a teda spĺňa vyššie uvedenú požiadavku nezávislosti od súradnicového systému pozorovateľa. Takto reprezentovaný objekt ostáva tým istým aj pri mentálnom otáčaní alebo rôznych pohľadoch.

3.2. Forma a funkcia

Predpokladajme, že sa pozeráme na scénu, v ktorej je stôl. Aká informácia nám pomáha identifikovať vnímaný objekt ako stôl? Stoly môžu byť najrôznejších tvarov dokonca môžeme ako stôl rozpoznať aj objekt tvaru odlišného od všetkých doteraz videných stolov. Ukazuje sa, že objekt je identifikovaný ako prvok nejakej kategórie nie na základe nejakej nemennej tvarovej charakteristiky, ale preto, že jeho forma, rozmery a iné viditeľné vlastnosti sú vnímané ako vhodné pre nejaký účel - funkciu. Takéto rozpoznávanie si vyžaduje naozaj znalosť vysokej úrovne a ďaleko prekračuje čistú percepciu

Neuropsychologička Elisabeth Warrington a jej kolegovia skúmali dôsledky mozgových lézií na psychické funkcie a našli dôkazy odlišnosti mechanizmov na vnímanie tvaru a funkcie: Zistili, že pacienti s poškodením ľavého temenného laloku mozgu neboli schopní dobre vnímať funkciu objektu, zatiaľčo schopnosť vnímať jeho trojrozmerný tvar ostala nenarušená. U pacientov s poškodením pravého temenného laloku to bolo presne naopak, čo napovedá, že rozpoznávanie tvaru a funkcie je vykonávané navzájom nezávislými mechanizmami.

 

Zhrnutie

Problém videnia - rekonštrukcie objektov, ktorých odraz dopadá na sietnicu je veľmi ťažký. Na jeho zvládnutie sú potrebné znalosti, ktoré možno použiť zdola nahor alebo zhora nadol. Prvý typ znalostí je výsledkom evolúcie a je implicitne zabudovaný v procesoch nervového systému. Túto “znalosť” nie je možné podrobiť introspekcii a nie je pod vedomou kontrolou. Druhým zdrojom znalostí sú životné skúsenosti jednotlivca - znalosti o tvaroch a funkciách objektov potrebné na ich identifikáciu.

Rozdiel v používaní týchto dvoch typov znalostí nám pomôže vymedziť hranicu medzi čistou percepciou a kognitívnym spracovaním. Marr túto hranicu vedie medzi 2,5D náčrtom a trojrozmerným modelom. Neurofyziologické dôkazy svedčia skôr v prospech hranice medzi trojrozmerným modelom scény a identifikáciou objektov a ich funkcií. A možno žiadna jasná hranica ani neexistuje. Jedno je však isté: informáciu o relatívnych hĺbkach povrchov (2,5D náčrt) nie je možné získať bez použitia vrodených princípov, identifikácia objektov zasa nie je možná bez využitia skúsenosti.

 

Kritika výpočtového prístupu

Najvážnejšími kritikmi Marrovej teórie sú zástancovia teórie priameho vnímania, ktorej otcom bol J. J. Gibson. Podľa Gibsona zmysly dokážu priamo vnímať z prostredia informáciu potrebnú na prežitie. Nesúhlasil už so samotným pojmom "spracovanie" (processing) informácie z prostredia - hovorí o "výbere" (pick up) informácie z prostredia. Nejednoznačnosť informácie sa znižuje vnímaním v pohybe - aktívnou exporáciou prostredia.

V prospech Gibsonovcov svedčí:

  1. jednoduchosť jeho teórie,
  2. geometrické argumenty: Longuet-Higgins ukázal, že úplna trojrozmerná rekonštrukcia scény je vypočítateľná z identifikácie a  spárovania piatich korešpondujúcich bodov na dvoch rôznych fotografiách,
  3. okamžitosť vizuálneho rozoznávania u človeka - ľudské videnie pracuje naozaj on-line, čo je pri Marrom navrhnutých výpočtových operáciách problém,
  4. pre niektoré Marrove symbolické reprezentácie je ťažké nájsť neurofyziologické koreláty.

 

Symbolická reprezentácia a paralelné výpočty

V modelovaní vizuálnej percepcie sa čoraz viac uplatňujú paralelné výpočty. Na simulovanie sa nepoužíva klasický sériový počítač s jedným procesorom, ale zariadenie s niekoľkými tisícami navzájom prepojených jednoduchých procesorov, ktoré počítajú súčasne. Významný je aj výskum v oblasti umelých neurónových sietí. Model vizuálnej percepcie implementovaný paralelným spôsobom má niekoľko výhod:

  1. plauzibilnosť - je veľmi podobný neuronálnym aktivitám
  2. rýchlosť - paralelné spracovanie je efektívnejšie a tak sa lepšie približuje "on-line" videniu
  3. explicitná symbolická reprezentácia videného nie je pre väčšinu fáz percepčného procesu potrebná.

 

 

Použitá literatúra

  1. P. Johnson-Laird: The Computer and the Mind: An Introduction to Cognitive Science, Harvard University Press, Cambridge, MA, 1988.
  2. H. Gardner: The Mind's New Science: A History of Cognitive Revolution, Basic Books Inc., New York, NY, 1987.

Použité obrázky sú z [1].

 

Obrázková príloha

 

 

 

 

 

 

 

 

 

 

 

 

Obr. 1: Konkurujúce kruhy Obr. 2: Disparita

 

 

 

 

 

 

 

 

Obr. 3: Gradient textúry a vnímanie hĺbky Obr. 4: Pohyb bodov vytvára ilúziu valcov

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Obr. 5: Dva a pol rozmerný náčrt Obr. 6: Katalóg tvarov

 

 

 

 

 

 

 

 

 

 

Obr. 7: Príklad na vnímanie "zhora nadol"