Automaatne näoilme tuvastus

Kas see uuenduslik tehnoloogia on valmis meid abistama kasutatavusvaldkonnas?

face1
Näoilme tuvastussüsteem - parempoolsel aknal olev punane sihtmärk näitab kasutaja pilgu keskendumispunkti (autoriõigus © ThirdSight. Kõik õigused kaitstud. Kasutatud ilma loata Ausa Kasutuse Doktriini alusel).

Viimase aastakümne jooksul on kasutajakeskses disainis toimunud oluline paradigmamuutus – senisest enam on hakatud kasutajakogemuse puhul arvestama hedonistlike faktoritega. Kuigi klassikalises kasutatavusteoorias ei eiratud afektiivseid aspekte ealeski, võib seda üleüldiselt kirjeldada kui üsna ülesandele ja tulemustele orienteeritud lähenemisviisi, mis kirjeldab kasutajat lähtuvalt tema kognitiivsetest võimetest. Seevastu uus kasutajakogemuse paradigma on pigem hollistiline ning tegeleb (isegi pisut liiga palju) “eksistentsiaalsete” probleemidega – kuidas disain sobib isiku elustiiliga, mis emotsioone ja reaktsioone see esile kutsub toote kasutamisele eelnevalt, selle kasutamise ajal ning peale selle kasutamist. Uue paradigm puhul pole disainerite põhimureks vaid toodete interaktsioonidisain, vaid ka toote sensoorsed, esteetilised ning emotsionaalsed omadused, mis muudavad toote kasutamise nauditavaks.


Lõppeesmärk afektiivse lähenemisviisi puhul on saavutada loomulik interaktsioone inimese ja seadme vahel, sarnaselt suhtlusele, mis leiab aset kahe inimese vahel.


Traditsiooniline kasutatavusdisain mõõtis reeglina toodete omadusi erinevate küsitluste ja skaalade abil. Küsitluste nõrgimaks küljeks on aga fakt, et küsimustikud saavad esitada vaid kokkuvõtte minevikusündmustest ning ei suuda interaktsiooni dünaamikat jäädvustada. Seda seetõttu, et paljud kasutajakogemuse dimensioonid ei pruugi olla üksikud otsused, vaid pigem otsused, mis varieeruvad kogu kasutusprotsessi käigus (nt hetkeemotsioonid). Lisaks sellele näitavad mitmed empiirilised uuringud, et erinevate hinnangute kokkuvõtetes võib esineda nö peak-end efekt – kasutajad ei lähtu hindamisel kogu kasutuskogemusest, vaid pigem lõpuosas valitsenud emotsioonidest. Seeläbi võivad kasutuskogemuse lõpus valitsenud emotsioonid olla pisut liiga suure osatähtsusega.


See paradigmamuutus on toonud esile vajaduse uute seadmete järgi, mille abil saaks mõõta momentaalseid emotsionaalseid reaktssioone isiku-toote interaktsioonis. Selle tulemusena on eelmisel aastakümnel esile kerkinud hulk mõõtemeetodeid: lisaks erinevatele psühholoogilistele jälgimisvahenditele (nt naha reageerimist, vererõhku, südame löögisagedust ja selle variatiivsust, muutusi jälgivad seadmed) ning elektroentsefalograafilistele seadmetele, on loodud ka inimese pilku ja žeste jälgivad ning emotsionaalset kõnepruuki tajuvad seadmed. Üks paljulubavamaid seadmeid nende hulgas on aga automaatne näoilme tuvastaja.


Psühholoogilises kirjanduses on emotsioon defineeritud kui isiku reageering eesmärgipärasele stiimulile, koosnedes nii biheivioristlikest, füsioloogilistest kui ka eksperimentaalsetest komponentidest. Emotsioonide kuvamine läbi miimika on olnud juba aastaid uurimise all. Alguse sellele pani evolutsiooniteooria suurkuju Charles Darwin oma teoses “The Expression of the Emotion in Man and Animals”, mis publitseeriti esmakordsel aastal 1872. Mitmed tema tollased vaatlused on osutunud hilisemate aastate jooksul tõeseks: eestkätt fakt, et miimika on emotsioonide puhul universaalne. Lihased, mis kontrollivad miimikat, on samad üle maailma, olenemata soost või kultuurist. Tuntud USA psühholoog Paul Ekman avastas läbi mitmete uuringute kuus universaalset/põhilist näoväljendit:


  • viha
  • tülgastus
  • hirm
  • rõõm
  • kurbus
  • imestus

face2
Kuus baasemotsiooni (autoriõigus © Umea ülikool. Kõik õigused kaitstud. Kasutatud ilma loata Ausa Kasutuse Doktriini alusel).

1970. aastate lõpuks oli Paul Ekmani teadustöö tulemusena alustatud näotegevuse kodeerimissüsteemi (FACS – Facial Action Coding System) loomist. Tegu oli tervikliku ja psühhometriliselt range süsteemiga, mille abil sai eristada ning mõõta ja analüüsida kõiki tajutavaid näoliigutusi. Süsteem töötati välja, uurides nii eelnevalt salvestatud kui ka otsepildis videosid näomiimikast, uurides mõningasel määral samuti miniatuurseid elektrilisi impulsse (näo elektromüograafia). Väljatöötatud süsteem jagab näolihaste nähtava aktiveerumise 44-unikaalsesse tegevusühikusse (AU – Action Unit), lisaks sellele jagatakse pea ning silmade positsioonid ning liikumised mitmesse erinevasse kategooriasse. Näo liikumine on seega kirjeldatud kui kobinatsioon erinevatest koostisosadest, tegevusühikutest (iga ühik, nt. mingi paralingvistiline signaal, on võimalik veel omakorda jaotada mitmeks ühikuks – nt emotsioon “segadus” on kombinatsioon ühikutest AU4, AU7 ja AU12).


face3
Näited AU-st (autoriõigus © The Crankshaft Publishing. Kõik õigused kaitstud. Kasutatud ilma loata Ausa Kasutuse Doktriini alusel).

Kui teoorias oli baas automaatse näoanalüüsi jaoks loodud 1970. aastate lõpuks, kasutati arvuteid selletarbeks esmakordselt paarkümmend aastat hiljem. Kaks põhilähenemist miimikaanalüüsis on message judgment ja sign-based. Mõlemad need metoodikad põhinevad Paul Ekmani töödel, mis küll erinevad üksteisest mõningal määral. Kui esimene neist on baasemotsioonidele keskendunud (püüdes selgitada, mida võib välja lugeda teatud näoilme tagant), siis teine on kirjutatud juba näotegevuse kodeerimissüsteemist lähtuvalt (kirjeldada nähtava käitumise “pinnapealsust”, nt näojoonte liikumist, jättes selle taha peituva sõnumi olemuse puutumata). See tähendab, et nt kulmude kergitamist võidakse message judgment metoodikas tõlgendada kui “viha”, siis sign-based teoorias püütakse olla pisut objektiivsemad.


Message Judgment lahendused on hollistilised, kombineerides informatsiooni mitmetest näoregioonidest eeldusel, et sama emotsiooni on võimalik väljendada mitmel erineval viisil. Neid lahendusi piirab aga asjaolu, et mitmed baasemotsioonid võivad esineda paralleelselt (inimene võib olla vihane, kuid samal ajal naeratada). Kvaliteetsete mõõtmistulemuste esitamise muudab veelgi raskemaks ajsaolu, et HCI oludes ei esine reeglina väga intensiivseid emotsioone.


Märgipõhises lähenemisviisis võetakse füüsilisi muutusi näokujus või –tekstuuris kui kirjeldajaid. Näojoonte muutumist kirjeldatakse seega läbi kokkusobivate komponentide (AU). Iga näol toimuv “sündmus” võib omakorda jaguneda üheks või mitmeks AU-ks. Kokku on täheldatud üle 10 000 AU kombinatsiooni. Kõik need AU-d saavad erineda intensiivsuselt 5-palli skaalal, tasemest A kuni tasemeni E. Tänu oma põhjalikkusele, võimaldab FACS kirjeldada ka emotsioonidele järgnevaid uusi näomustreid ning nende seotust eelkäijaga. Need mustrid võivad olla HCI perspektiivist märksa olulisemad kui lihtsalt emotsioonid.


Sellegipoolest, peaaegu kõik praegu saadaval olevad kommertslikud näoilme tuvastamiseks mõeldud süsteemid (FaceReader, Affdex, EmoVision, nViso, Realeyes) toodavad väljundina kuue baasemotsiooni kombinatsiooni (lisaks eelnevalt kirjeldatud kuuele baasemotsioonile lisandub ka “neutraalne” olek). Paljud neist süsteemidest kalkuleerivad ka emotsionaalset valentsi – kas vaatluse all olev isik on positiivses või negatiivses olekus. Ainult vähesed süsteemid vaatlevad enamat kui neid kuute baasemotsiooni ning on võimelised kalkuleerima ka muid parameetreid, näiteks tähelepanu, kontsentratsioon, segadus ning ebameeldivus. Sellegipoolest on enamustes kommerts-süsteemides võimalik neid kognitiivseid olekuid lisada iseseisvalt.


face4
Sarnaselt muudele biheivioristlikele uuringutööriistadele, on UI nöoilme tuvastussüsteemid tavaliselt organiseeritud kui tavalised töölauad, kus ajajoon on põhielemendiks. Lisaandmeid kuvatakse erinevate diagrammide abil (autoriõigus © Noldus Information Technology. Kõik õigused kaitstud. Kasutatud ilma loata Ausa Kasutuse Doktriini alusel).

Lisaks emotsiooniele, tunnevad mitmed kommerts-süsteemid ka biheivioristlikke ning demograafilisi karakteristikaid, nt:


  • pea liikumine XYZ ruumis
  • globaalne pilgujälgimine – vahest isegi püüdes jälgida kasutaja pilgu liikumist ilma konkreetse raudvara olemasoluta, läbi tavalise kaamera
  • kas inimese suu on avatud või suletud, kas ta silmad on lahti, kas ta kulmu on kergitatud
  • sugu, vanus, rahvus

Paraku ei suuda need süsteemid interpreteerida neid andmeid. Selle asemel pakutakse kasutajatele erinevaid arendamiskeskondasid, et nad need algoritmid ise välja töötaksid.


Peamine põhjus, miks need süsteemid ei ole HCI perspektiivist täiuslikud, on nende süsteemide orienteeritus. Enamus neist on suuntud turuanalüüsi tarbeks ning nad analüüsivad emotsionaalseid reaktsioone turundus-stiimulitele, nt videoreklaamid, meediatreilerid, tootebrändid jne. Kuigi mitmed tootjad väidavad, et nende süsteemid on sobilikud ka kasutatavustestimisel kasutamiseks, on nende väidetega keeruline nõustuda. Kasutatavustestimine ning kasutajakogemuse analüüsimine nõuavad vägagi spetsiifilist mõõtmisinstrumenti.


Tõenäoliselt ainus näoilme tuvastussüsteem, mis on spetsiaalselt HCI tarbeks loodud, on UX-MATE (UX Motion Activation Tracking Engine), mille on loonud rühm teadlasi Trento Ülikoolist Itaalias. Tegu pole veel kommertstootega, kuna tegu on esialgu eksperimentaalse süsteemiga. See süsteem analüüsib näojoonte liikumist, otsimata mingeid kindlaid mustritele vastavaid emotsioone. See lubab tabada erinevate emotsioonide mikstuure. UX-MATE kombineerib erinevaid näotuvastusmustreid, põhinedes FACS süsteemile, ehitamaks omaenda raamistiku: 12 liikumisühikut (MU) on defineeritud vastavalt iga tegevusühiku (AU) kohta (AU ja MU erinevus peitub selles, et MU ei kirjelda vaid ühiku olemasolu, vaid lisaks sellele ka selle magnituudi ning võimsust). Praegune UX-MATE versioon suudab tabada ka kahte HCI-aspektist olulist muutujat – segadust ning frustratsiooni. See algoritm põhineb eelneval FACS uurimusel. Esialgsed uurimustulemused on olnud vägagi positiivsed ning annavad lootust, et UX-MATEst saab väga kasulik tööriist, ennetamaks kasutatavusprobleeme.


Kokkuvõttes – näoilme tuvastus on teadus, mis on alles hakanud pead tõstma, kuid samuti on tegu tööriistaga, millega potentsiaalseid UX-probleeme vältida. Pole kahtlust, et seda tehnoloogiat hakatakse tulevastel aastatel rohkelt kasutama. Näoilme tuvastuse kombineerimine pilgujälgimismeetoditega suudaks kirjeldamatult uuendada kasutatavustestimiste olemust. Vaatleja saaks näha lisaks kasutaja pilgu liikumisele ka tema emotsionaalseid reaktsioone ning kognitiivseid olekuid. Kuigi praegune turuolukord ei suuda veel UX-professionaale varustada vajalike tööriistadega igapäevatööks, on lootust, et tulevatel aastatel luuakse ka kommertstarkvara, mida saab UX-valdkonnas kasutada.