Tiede: Google uskoi voivansa ennustaa influenssa-aallot tarkasti mutta epäonnistui – data kertoo paljon, vaikka ei tiedäkään kaikkea

Facebook on käytännössä estänyt aineistojensa käytön.

Ilkka Ritvanen

Maailmassa kohoaa vuori, jota sinäkin olet kasvattamassa. Vuori koostuu datasta: järjestelemättömistä, pääasiassa digitaalisista tiedon hippusista.

Kooltaan se on arvioiden mukaan noin 74 zetatavua. Zetatavu on tuhat miljardia gigatavua. Vuoteen 2025 mennessä koon arvioidaan kasvavan yli 180 zetatavuun.

Suuri osa datasta on automaattisesti tallentuvia lokitietoja, suoratoistopalveluiden videovirtaa ja teollisten prosessien seurantaa. Merkittävä osa on kuitenkin tavallisten ihmisten toimintaa: hakuja, päivityksiä sosiaalisessa mediassa, kuvia.

Joka minuutti lähetetään puoli miljoonaa viestiä Twitterissä ja Youtubeen ladataan yli 500 tuntia videota. Googlessa tehdään joka sekunti 60 000 hakua. Luvut ovat arvioita ja todennäköisesti alakanttiin.

Ensimmäistä kertaa historiassa ihmismassojen ajatuksista ja teoista on olemassa tietoa, jota voidaan käsitellä matemaattisin mallein. Samaan aikaan käytössä on yhä kehittyneempiä tekoälysovelluksia, jotka voidaan opettaa seulomaan valtavia datamääriä.

Kuluttajatutkimuskeskuksessa työskentelevä viestinnän tutkija, dosentti Salla-Maaria Laaksonen on ollut ensimmäisten suomalaisten yhteiskuntatieteilijöiden joukossa ottamassa käyttöön laskennallisen yhteiskuntatieteen menetelmiä.

On päästy ohi pahimmasta hypestä.

Salla-Maaria Laaksonen

Vuoden 2015 eduskuntavaalien alla hän tutki vaaleihin liittyvää keskustelua perinteisessä ja sosiaalisessa mediassa. Miljoonista viesteistä ja tekstinkappaleista tehtiin aihemallinnus, jolla muun muassa osoitettiin, että sosiaalisessa mediassa syntyvät aiheet leviävät yhä useammin perinteisen median puolelle.

Laaksonen on ollut tutkimassa myös kuluttajien käyttäytymisen muutoksia, kuten kasvissyönnin suosiota, sosiaalisen median keskustelujen avulla.

– Olemme pystyneet ennustamaan kuluttajatrendejä mutta emme riittävän tarkasti, että siitä olisi hyötyä kaupalle, hän sanoo.

Salla-Maaria Laaksonen on tutkinut muun muassa kuluttajien käyttäytymisen muutosta. Tuukka Lehtiniemi

Google julkisti vuonna 2008 tutkimuksen, jonka mukaan se pystyy ennustamaan influenssa-aaltojen ilmaantumista terveysviranomaisia paremmin ja aikaisemmin. Tieto perustui influenssaan ja sen hoitoon liittyvien Google-hakujen lisääntymiseen.

Kaikki menetelmät eivät kuitenkaan skaalau­tuisi paremmiksi vaikka niihin kuinka kaadettaisiin laskentatehoa.

Pauli Miettinen

Yhtiö perusti Google Flu Trends -sivuston, joka kuitenkin epäonnistui heti seuraavana vuonna sikainfluenssan ennustamisessa. Kun epäonnistumiset seurasivat toisiaan, Google lopulta sulki koko sivuston.

Epäonnistumisen yhtenä syynä pidetään sitä, että suurin osa influenssaepäilyistä osoittautuu lopulta vääriksi. Aineistona oli siis huonoa dataa, josta ei pystytty seulomaan merkityksellistä tietoa.

Tulos on ollut tyypillinen monille muillekin ennustusyrityksille.

– Kaikista tulee tuloksia, joissa ennustaminen onnistuu. Asiat kuitenkin muuttuvat niin nopeasti, että se ei toimi enää toisella kerralla, Salla-Maaria Laaksonen sanoo.

Yhteiskunnalliset kysymykset voivat olla niin monimutkaisia, ettei niitä voi yksinkertaistaa helposti käsiteltävään muotoon. Laaksonen on kollegoineen yrittänyt opettaa tekoälyä tunnistamaan nettikeskustelijoiden ydinvoimakantaa.

– Puheenvuorot ovat niin pohdiskelevia. Emme pysty aina edes tutkijoina sanomaan, mitä mieltä ihmiset ovat.

Tutkimus vaatii siis edelleenkin perehtyneen ihmisen käymään aineistoa läpi.

Kovimpien odotusten lyssähtäminen on tutkimuksen kannalta myös hyvä asia.

– On päästy ohi pahimmasta hypestä, jossa pelkkä big datan mainitseminen tuntui herättävän rahoittajienkin kiinnostuksen, Laaksonen sanoo.

Sosiaalisen median tutkimuskäyttö on myös vaikeutumassa muun muassa kiristyvän lainsäädännön vuoksi. Maailman suosituin sosiaalinen media, lähes kolmen miljardin käyttäjän Facebook on käytännössä estänyt aineistojensa käytön.

– Siellä ei enää päästä oikein mihinkään aineistoon käsiksi, Salla-Maaria Laaksonen sanoo.

Twitter on lähtökohtaisestikin julkinen media, jonka tutkiminen on koodaustaitoiselle suhteellisen helppoa. Se on kuitenkin leimallisesti ”eliitin” keskusteluareena, jossa ­on jollain tavalla mukana enintään neljännes suomalaisista. Sama koskee kaikkea sosiaalista mediaa – aktiiviset käyttäjät korostuvat.

– Mikään someaineisto ei ole edustava samalla lailla kuin survey-tutkimus, Salla-Maaria Laaksonen sanoo.

Survey-tutkimus on satunnaisotannalla ja kyselyllä tai haastattelulla toteutettu tutkimus, johon osallistuu suuri joukko vastaajia.

Keskustelu sosiaalisessa mediassa on myös yhä enemmän siirtymässä suljettuihin ryhmiin. Täysin julkisesti toimivat ovat yhä enemmän julkisessa asemassa olevia tai taloudellista toimeentuloa tavoittelevia vaikuttajia, influenssereita.

– Yhä suurempi osa viestinnästä on myös muuta kuin tekstiä eli videoita tai kuvia, Laaksonen sanoo.

Liikkuvan kuvan analysointiin on jo olemassa keinoja. Käynnissä on esimerkiksi tutkimushanke, jossa analysoidaan Suomi-filmejä puheen- ja kuvantunnistusohjelmien avulla ja etsitään niistä merkkejä yhteiskunnan muutoksesta.

Pauli Miettinen työskentelee datatieteen professorina Itä-Suomen yliopistossa. Itä-Suomen yliopisto

Laskennallisen yhteiskuntatieteen on mahdollistanut tietojenkäsittelytieteen ja tietojenkäsittelytieteen aloilla tapahtunut edistys, joka on johtanut oman tieteenalansa, datatieteen, syntyyn.

– Datatiede yhdistää tietojenkäsittelytiedettä, koneoppimista ja tilastotiedettä kehittääkseen menetelmiä, joilla isoista tietoaineistoista saadaan merkityksellistä tietoa ja luotettavia ennustuksia, tiivistää datatieteen professori Pauli Miettinen Itä-Suomen yliopistosta.

Datatiede on siis menetelmätiede.

– Ero on kuin matematiikalla ja fysiikalla. Matemaatikko kehittää laskemisen tapoja, joita fyysikko soveltaa jonkin todellisen luonnonilmiön tutkimiseen

Samalla lailla datatieteilijä voi kirjoittaa algoritmin, joka löytää vaikka sosiaalisesta mediasta tiettyjä yhteisöjä. Yhteiskuntatieteilijän tehtäväksi jää selvittää, mitä tämä kertoo yhteiskunnan kehityksestä.

– Me voimme löytää vastauksia, mutta emme tiedä kysymyksiä, Miettinen sanoo.

Datatiede voi siis joissain tapauk­sissa kääntää perinteisen tieteentekemisen mallin päälaelleen. Perinteisesti tutkija on luonut hypoteesin eli ehdotuksen jonkin ilmiön selitykseksi. Sitten hän on kerännyt aineiston ja tutkinut sitä joko vahvistaakseen tai kumotakseen hypoteesin.

Datatieteen menetelmiä käytettäessä ensin olemassa voi olla aineisto, josta ohjelma löytää lainalaisuuksia. Näihin perehtymällä tutkija voi luoda hypoteesin, jota voidaan testata.

Datan määrä lisääntyy, mutta niin tapahtuu myös tietokoneiden suoritusteholle. Tulevaisuuden kvanttitietokoneiden pelätään jo vaarantavan valtioiden turvallisuutta, kun kasvavalla laskentateholla voidaan murtaa nyt varmoina pidetyt suojaukset.

Käykö samoin myös rajoille, joihin tällä hetkellä törmätään myös datatieteessä?

– On jotain tapauksia, joissa tällä voitaisiin voittaa ongelmia. Kaikki menetelmät eivät kuitenkaan skaalautuisi paremmiksi, vaikka niihin kuinka kaadettaisiin laskentatehoa, Pauli Miettinen sanoo.

– On mahdollista että on olemassa kysymyksiä, jotka ovat meille hyvin luonnollisia, mutta niitä ei vain ole mahdollista laskea.

Termit

Datatieteen sanastoa

Big data: Yleiskäsite, jolla viitataan jäsentelemättömään, monimuotoiseen ja nopeasti kasvavaan tietomäärään, jonka käsittely ei onnistu perinteisin menetelmin.

Tiedon louhinta: Merkityksellisen tiedon etsintää suurista, jäsentelemättömistä tietomassoista. Usein siihen kuuluu myös tiedon esittäminen helposti ymmärrettävässä visuaalisessa muodossa.

Algoritmi: Tietojenkäsittelyssä käytetty kuvaus tai ohje siitä, miten jokin tehtävä suoritetaan tai ongelma ratkaistaan. Nimi tulee 700-luvulla syntyneen persialaisen matemaatikon Muhammad ibn Musa al-Khwarizmin nimen latinankielisestä versiosta.

Koneoppiminen: Tekoälyn osa-alue, jossa ohjelma suorittaa tehtävää oppien samalla annetusta aineistosta tai mahdollisen käyttäjän toiminnasta. Arkielämän sovelluksia ovat vaikkapa puhelimen automaattinen sanansyöttö ja sähköpostin roskapostisuodattimet.

Syväoppiminen: Syväoppimisessa tekoäly perustuu aivojen toimintaa etäisesti jäljitteleviin keinotekoisiin neuroverkkoihin. Mahdollistaa entistä monimutkaisempien tehtävien suorittamisen. Esimerkiksi kuvantunnistus hyödyntää syväoppimista.

Kommentoi

Uutiskirje

Kun tilaat uutiskirjeen, saat päivittäin sähköpostiisi tärkeimmät paikalliset uutiset. Uutiskirje lähetetään sähköpostiisi joka päivä kello 14.

Lomaketta suojaa reCAPTCHA, johon pätevät Googlen Tietosuoja ja Käyttöehdot.

Palvelut