Tunneälyä tietokoneelle

Tekniikka

10.9.2014

News article

Writers: Petja Partanen

Photographers: Joel Karppanen

Tutkija Eero Väyrynen opetti väitöstyössään tietokoneen tunnistamaan puhujan tunnetilan. Ensimmäiselle suomea ymmärtävälle tunnetulkille on käyttöä niin automaattisessa asiakaspalvelussa, uudenlaisissa käyttöliittymissä kuin tietokonepeleissä.

Vuonna 2003 Oulun kaupunginteatterin näyttelijöillä oli kumma keikka. Oulun yliopiston informaationkäsittelyn tutkijat pestasivat 14 näyttelijää puhumaan minuutin näytteitä näytellen vihaa, iloa ja surua. Eero Väyrynen ja muut tutkijat halusivat selvittää, oppisiko tietokone tunnistamaan puhujan tunnetilan puheen, ihmisen tärkeimmän kommunikaatiokeinon, perusteella.

Ajattelevat ja kommunikoivat koneet ovat olleet populaarikulttuurin vakiokuvastoa jo pitkään. Vuonna 1968 valmistunut Avaruusseikkailu 2001:n tunteikkaaksi paljastunut HAL 9000 -tietokone kommunikoi sujuvasti avaruusaluksen miehistön kanssa. Vuonna 1982 valmistuneen Blade Runner -elokuvan replikantit alkoivat nekin saada tunteita elinkaarensa loppupuolella.

Affektiivisen tietojenkäsittelyn teknologia on sen sijaan kaukana scifi-kirjallisuuden visioista. Insinöörikunnassa alan pioneeri on MIT:n Media Labin professori Rosalind Picard. Hänen vuonna 1997 ilmestynyttä kirjaansa Affective Computing pidetään lähtölaukauksena koko uudelle tieteenalalle.

– Picard osoitti siinä, että affektiivinen laskenta on asia, joka pitää hallita, jos halutaan rakentaa luonnollisia älykkäitä koneita, Väyrynen toteaa.

Tunteet ovat elimellinen osa ihmisen ajattelua. Neurotieteilijät ovat havainneet, ettei rationaalisinkaan insinööri kykene edes yksinkertaisten päätösten tekoon, jos aivojen tunnealueet ovat vaurioituneet.

Ensimmäinen askel tunneälykkäiden koneiden kehityksessä on opettaa ne havaitsemaan tunteita. Oululaisinsinöörien tutkimuskysymys oli yksinkertainen: Miten tunnistaa automaattisesti puhujan tunnetila suomenkielisestä puheesta? Tutkijat valitsivat lähtökohdaksi yksittäisten äänteiden ja tavujen sijasta puheen jatkuvat piirteet, ammattikielellä puheen prosodian.

– Prosodia on puheen jatkuvaa, sanoista riippumatonta vaihtelua, Väyrynen selvittää.

Prosodiapiirteitä ovat siis esimerkiksi sävelkorkeus, voimakkuus ja rytmi. Kielentutkijat ovat havainneet prosodian kertovan paljon puhujan tunnetilasta.

Tunteiden tulkkaus ensi askel

Ensimmäinen askel oli kehittää tutkimusryhmän hyvin tuntemiin hahmontunnistus- ja koneoppimismenetelmiin perustuva teknologia tunnistamaan puhenäytteistä perustunteet suru, ilo ja viha. Kyseessä oli perustutkimus, sillä kukaan ei ollut aiemmin yrittänyt samaa suomenkielisestä puheesta. Apua saatiin hahmontunnistustekniikoista, joita hyödynnetään esimerkiksi enemmän tutkitussa kuvantunnistuksessa.

– Niissä on paljon samanlaista problematiikkaa, mutta myös eroja. Vaikea sanoa kumpi on vaikeampaa.

Väyrysen ensimmäinen tutkimuspaperi julkaistiin 2004. Vuonna 2005 valmistui diplomityö, F0Tool -ohjelmisto, joka laskee prosodiapiirteitä suomenkielisestä puheesta. Samalla valmistui myös Väyrysen toinen tutkimuspaperi ohjelmiston suorituskyvystä.

Tulokset olivat hyviä. Jo ensimmäinen ohjelmistoversio tunnisti puhujan perustunnetilan oikein 70 prosentin todennäköisyydellä,
vertailuryhmänä käytetyt ihmiset 76 prosentin todennäköisyydellä. Tutkimuksen edetessä hienostuneempi laskenta-algoritmi alkoi pärjätä ihmiselle.

– Koeasetelma oli aika rajattu, joten ei voi väittää, että se olisi parempi tunnistamaan emootioita kuin ihminen, mutta tässä nimenomaisessa tehtävässä muutaman tunteen tunnistamisessa se pärjäsi vähintään yhtä hyvin.

Väitöstyönsä viimeisessä julkaisussa Eero Väyrynen onnistui survomaan puheesta irrotetut 50 piirrettä kolmiulotteiseksi visualisoinniksi.

Tutkijan hienot hetket

Tämä oli nuorelle tutkijalle iloinen hetki.

– Oli hienoa, kun ensi kertaa näki tuloksista, että tunteiden luokittelu suomenkielisistä ääninäytteistä onnistuu. Tieteellisesti se ei kyllä ollut jättiharppaus, sillä vastaavia on jo tehty muilla kielillä ja aineistoilla.

Suurempi tieteellinen läpimurto oli väitöskirjan tuorein paperi, johon on kiteytetty koko kymmenen vuoden tutkimustyö.

– Se kuvaa koko teknisen viitekehyksen, jolla puheen prosodiaa voidaan luokitella ja esittää ihmiselle merkityksellisellä tavalla.

Vuosien varrella syntyi muun muassa uudenlainen fuusiomenetelmä emootion tunnistamiseen. Se tehostaa tunnetilan luokittelua lyhyistä puhekomennoista.

Emootion tunnistus puheesta on haastava laskentaongelma. Puhesignaalista lasketaan aluksi kaikkiaan 50 eri piirrettä. Kun algoritmia opetetaan, tunnetilan kannalta epäoleelliset puheen piirteet karsitaan pois. Perusopetuksen jälkeen tunnistus onnistuu 10–15 puheen piirteen avulla.

– Emootion tunnistus on hyvin epälineaarinen ongelma. Jos yksi piirre muuttuu, ei voi suoraan sanoa että tunnetila muuttuu vaikkapa ilosta vihaan.

Väyrynen onnistui rakentamaan visualisointimenetelmän, joka etsii datasta hahmoa ja esittää tunnetilan kannalta oleelliset puheen piirteet kolmiulotteisena visualisointina.

– Toinen tutkijan huippuhetki oli, kun näki miten hyvin moniulotteinen aineisto saadaan survottua epälineaarisen mallinnuksen kautta kolmiulotteiseksi visualisoinniksi. Neutraalit ääninäytteet asettuivat visualisoinnin keskelle. Järjestelmälle ei oltu kerrottu tätä etukäteen, vaan tavallaan data kertoi, että olit oikeassa.

Suomalaisten tunneilmaisua pidetään kovin laimeana. Onko emootion tunnistus esimerkiksi Kimi Räikkösen puheesta tietokoneelle kova pala purtavaksi? Tutkijan mukaan suomalaisia ei voi leimata tunteettomiksi puhujiksi.

– Kimi Räikkönen on aika äärimmäinen esimerkki suomalaistenkin joukossa. Suomalaisten esitystavassa on ehkä vähän vähemmän dynamiikkaa, mutta kyllä siellä samat elementit on kuin muissakin kielissä. Meidän arviomme oli, että suomen kieli on aika lähellä länsieurooppalaisten kielten emootioiden esittämistapaa.

Älypuhelimiin, verkkohakuihin, peleihin

Toimivalla emootiontunnistuksella on käyttöä monessa kohteessa. Yksi sovelluskohde ovat älypuhelinten ääniohjaussovellukset, kuten Applen Siri ja Google Now Android-puhelimissa.

– Ne voisivat olla sensitiivisiä tunteille.

Puheentunnistuksen tarkkuus paranisi, jos puhujan tunnetila on tiedossa.

– Turhautunut puhuja painottaa sanoja eri tavalla kuin hyväntuulinen.

Myös automaattiset asiakaspalvelusovellukset voisivat aistia puhujan tunnetilaa.

– Puhelinkeskus voisi aistia turhautumisen tai vihan, ja analysoida, mikä on mennyt vikaan asiakaspalvelutapahtumassa.

Nettihakujakin voisi tehdä tunteiden perusteella. Suuri osa maailman nettisisällöstä on tunteita pursuavaa elävää kuvaa.

– Tulee mieleen esimerkiksi haku YouTuben sisällöistä, josta voisi hakea esimerkiksi pelkästään iloisia videoita. Siihen tämä teknologia sopisi aika suoraan. Myös monen pelaajan online-pelien käyttöliittymissä voisi olla pelaajan tunteentunnistus, jolla tunteet voitaisiin viedä pelimaailmaan.

Käyttötapoja on siis lukemattomia. Yhteinen piirre niille on, että tietokoneen käyttöliittymät saisivat ripauksen inhimillisyyttä. Tietokoneille kyky tulkita puhujan tunnetilaa on tärkeä virstanpylväs matkalla kohti luonnollista vuorovaikutusta ihmisen ja koneen välillä.

– Minun kehittämäni emootioiden tunnistus on kuitenkin vain pieni osa affektiivista laskentaa, Väyrynen muistuttaa.

Kun kehitetään koneita, jotka osaisivat tunteiden tunnistamisen lisäksi myös käsitellä niitä, vaikeusaste nousee huomattavasti. Mukaan tarvitaan niin kognitio- ja kielitieteilijöitä, neuropsykologeja sekä rutkasti insinöörejä, jotka ymmärtävät koneoppimisen ja perustietotekniikan päälle.

Haluaisiko tutkija itse olla mukana kaupallistamassa tutkimuksen tuloksia?

– Mikäpä ettei. Joku tuotteistusprojekti voisi olla hyvinkin kiinnostava, insinöörejä kun ollaan.

Lähiajan suunnitelma on kuitenkin jatkaa tutkimustyötä.

– Syksyllä haetaan akatemiarahoitusta, siihen pitää kehittää tutkimussuunnitelma. Eniten kiinnostaisi pelimaailma, jos tätä affektiivista teknologiaa pystyisi yhdistämään peleihin.

Mitä haluaisit saada aikaan tekniikan tohtorina?
"Soveltaa väitöstyön oppeja käytäntöön. Ei sen tarvitse olla tunteiden tunnistamista puheesta, sama signaalinkäsittely- ja hahmontunnistusteknologia toimii myös muissa sovelluksissa."

Suosikkileikkikalu?
"En hirveästi leiki. Joskus aikanaan olisin sanonut tietokone."

Lempiharrastus?
"Viinit, eritoten samppanjat, hyvässä seurassa nautittuna."

Viinit vastapainona ongelmanratkaisulle

– Tekniikan koulutuksessa persoona muuttuu. Näkee vain ongelmia, joihin on olemassa jokin tekninen ratkaisu. Vastapaino pitää löytää jostakin, jossa ei joudu haluamattaan töihin, Eero Väyrynen pohtii.

Monille analyyttisen tutkijantyön vastapaino on liikunta, Väyryselle viinit, hyvä ruoka ja seura.

– Viinit eivät ole ongelma, joka pitäisi ratkaista. Niistä voi vain nauttia. Tekniikassa yritetään tehdä spesifejä, toistettavia ratkaisuja. Viinit taas ovat uniikkeja, jokainen vuosikerta on erilainen.

Viime aikoina Väyrystä ovat inspiroineet Uuden Seelannin kylmien viinialueiden viinit.

– Cloudy Bay -talon viinit maistuvat juuri nyt. Heidän Sauvignon Blanc -viininsä on oikein hyvä kalaruokien kanssa.

Tosin juuri nyt harrastuksesta uhkaa tulla työ.

– Minulla on sivutyönä kavereiden kanssa yritys Metavisual Oy.

Väyrynen on ollut kehittämässä muun muassa mobiililaitteilla toimivaa samppanjaopasta. Teknisestä toteutuksesta on vastannut tutkijoiden yritys, sisällöstä Suomen herra samppanja Jukka Sinivirta.

Yrityksen uusin tuotanto on Applen mobiililaitteilla toimiva versio Kari Ylänteen olutoppaasta.

– Näitä on tehty iltaisin muiden töiden jälkeen. Näköjään sitä aina sotkee työn harrastukseen. Pitääköhän vaihtaa harrastusta?

Eero Väyrysen tie tekniikan tohtoriksi

Oululaistutkijat käyttivät tunteiden tunnistamiseen puheen prosodiapiirteitä. Eri kielten intonaatiota ja rytmiä matkii myös iltapäivälehtien kielinaiseksi nimeämä Sara Maria Forsberg, jonka YouTube-videota What Languages Sound Like To Foreigners on katsottu yli 12 miljoonaa kertaa.