Varovaisuutta aihemallinnuksen kanssa

Eräs laskennallisten menetelmien tällä hetkellä suosituin sovellus on aihemallinnus eli topic modeling. Se mahdollistaa laajojen tekstiaineistojen jakamisen ryhmiin ja tällä tavalla “kaukoluvun” aineistosta. Tietenkään sen ei koskaan ole tarkoitus korvata aineiston lähilukua (esim. Grimmer & Stewart, 2013), mihin voi käyttää vaikka etnograafisia menetelmiä.

Eräs valinta aihemallinnuksesta on aiheiden määrän, eli tutummin, k:n valinta. Kirjallisuudessa usein esiintynyt tapa tähän on katsoa muutama eri arvo ja valita näistä selkeiten tulkittavissa oleva. Kritisoin tapaa jo marraskuun Rajapinta-meetupissa. Yksinkertainen koeasetelma näytti kuinka ihmisten mielipide selkeydestä vaihtelee merkittävästi.

Aihemallinnus: tuloksia eri k:n arvoilla
Alustava luokitus aineiston sisällöstä eri aihemallinnuksilla. Katso vain kuva.

Kuvassa näemme kuinka niiden tulkinnat myös tuottavat hiukan erilaisia näkemyksiä aineistoista. (Varoitus: nämä ovat vielä alustavia nimiä, eli en ole vielä itse täysin tyytyväinen näihin.) Olen pyrkinyt ryhmittelemään aineiston niin, että samanteemaiset aiheet olisivat samalla rivillä.

Kuvasta nähdään esimerkiksi kuinka aiheiden määrän lisääntyminen kahteenkymmeneen aiheeseen selkeästi tuo jotain uusia ajatuksia aineistoon, erityisesti alueelisuuden ja globalisaation. Toisaalta aiheena esimerkiksi suomalaisuus on osassa malleissa mukana ja osassa ei, mikä luultavasti kuvaa aihemallinnusprosessissa olevaa satunnaisuutta. Toisaalta 26 ja 30 aiheen mallit tuovat esille taloudellisuuden, perusturvan sekä edustuksellisuuden aiheita.

Aihemallinnuksen soveltajille uutiset ovat valitettavia: en itse pitäisi sopivana ajaa aihemallinnusta teoreettisesti mielekkäällä lukumäärällä tai tutkimalla muutamaa eri aihemäärää. Riskit vääristä tulkinnoista ovat ilmeiset näissä tapauksissa. Sen sijaan pitäisin itse toivottavana aihemäärän valitsemista laskennallisin kriteerein, kuten log-likelihood arvoja käyttämällä. Vaikka näistäkin käydään ritstiriitaista keskustelua, tämä silti vähentäisi tiettyä epävarmutta mikä nykyiseen käytäntöön tulee.

Erityiskiitos Koneen Säätiölle tutkimuksen tukemisesta sekä Tieteen tietotekniikan keskus CSClle laskenta-ajasta.

Smarter Social Media Analytics -hanke starttaa joulukuussa

4601859272_4228421089_z
Kuva: Matt Wynn

Saimme viime viikolla virallisesti tiedon, että Tekes rahoittaa projektiamme Smarter Social Media Analytics, jossa yhdessä yrityskumppaneiden kanssa lähemme nimen mukaisesti rakentamaan fiksumpaa sosiaalisen median analytiikkaa – tavoitteena tutkia ja kehittää uusia menetelmiä trendien ja ilmiöiden tunnistamiseen laskennallisesti sosiaalisen median tekstimassoista.

Hankkeen toteuttavat Kuluttajatutkimuskeskus KTK (HY) ja Tietotekniikan tutkimuslaitos HIIT (HY), ja rajapintalaisista mukana projektissa virallisesti ainakin Salla, Matti ja Arto. Alla hankkeen tiivis kuvaus tutkimussuunnitelmasta. Huraa!

**

Sosiaalisessa mediassa vahvistetaan ja rakennetaan yrityksiin, organisaatioihin ja brändeihin liittyviä käsityksiä ja jaetaan niihin liittyviä kokemuksia. Digitaalinen mediaympäristö tarjoaa mahdollisuuden seurata ja tutkia eri toimijoihin kohdistuvia arvioita, arvosteluja, kokemuksia ja tuntemuksia laskennallisesti. Tässä hankkeessa rakennamme isojen verkkoaineistojen avulla menetelmiä keskusteluissa syntyvien ilmiöiden ja trendien automaattiseen, reaaliaikaiseen tunnistamiseen.

Käytössämme ovat satojen miljoonien viestien laajuiset sosiaalisen median aineistot: Suomi24-verkkoyhteisön koko keskusteluaineisto, Futusome Oy:n keräämä satojen miljoonien viestien kokoinen aineisto suomenkielistä sisältöä eri sosiaalisen median palveluista. Näiden lisäksi hyödynnämme Taloustutkimus Oy:n keräämiä edustavia kyselytutkimusaineistoja ja isoja media-arkistoja. Näitä aineistoja rinnastamalla pystymme rakentamaan ja validoimaan algoritmeja, joiden avulla nousevia trendejä ja ilmiöitä on mahdollista koneoppimisen avulla tunnistaa verkkokeskusteluista. Laskennallisen data-analyysin ja sitä tukevan laadullisen analyysin ohella hankkeessa kerätään laadullista havainnointi- ja haastatteluaineistoa toimintatutkimuksellista näkökulmaa käyttäen.

Tutkimuskokonaisuus limittyy osaksi sekä laskennallisen yhteiskuntatieteen kehittymistä Suomessa että sosiaalisen mediaa hyödyntävien yritysten (ns. asiakasyritykset) diagnostisten valmiuksien parantamiseen tähtäävää valmentamista. Tutkimuksellinen näkökulma varmistaa myös analytiikan sikäli viisaamman kehittämisen, että analytiikka huomioi sosiaalisen median aineistojen käyttöön liittyvät eettiset ja taloudelliset näkökulmat myös tavallisten käyttäjien näkökulmasta.

Helsingin yliopiston Kuluttajatutkimuskeskuksen ja Tietotekniikan tutkimuslaitos HIIT:in yhteistyötahoina hankkeen valmistelussa ovat olleet Aller Media Oy, Taloustutkimus Oy ja Futusome Oy (ns. analytiikka- ja aineistoyritykset jotka osallistuvat hankkeeseen työpanoksellaan ja aineistoilla). Lisäksi konsortiossa mukana ovat pienemmät kasvuvaiheen analytiikkayritykset (Underhood.co, Sometrik, Leiki, Arvo Partners, myös Futusome), jotka osallistuvat hankkeeseen työpanoksellaan ja luovuttamalla tutkimusaineistoja tutkijoiden käyttöön, sekä isommat asiakasyritykset (Atria Suomi Oyj, Ilmarinen Keskinäinen Vakuutusyhtiö Oy, SOK, TeliaSonera Oyj, myös Aller ja Taloustutkimus), jotka osallistuvat hankkeeseen rahapanoksella.

Digivaalit 2015 Studia Generaliassa

Syksyn 2016 Studia Generalia eli Helsingin yliopiston perinteikäs yleisöluentosarja starttasi 6. lokakuuta teemalla “Mikä Big Data?”. Puhumassa olivat digitaalisten aineistojen tutkimuksen professori Timo Honkela sekä minä, verkkoviestinnän tutkija Salla-Maaria Laaksonen otsikolla “Digivaalit 2015: Mitä isot digitaaliset aineistot kertovat yhteiskunnasta ja vaikuttamisesta?“.

Illan teemana oli siis erityisesti pohdinta siitä, miten isot digitaaliset aineistot muuttavat humanistisia ja yhteiskuntatieteitä. Omassa esityksessäni kerroin siitä, miten verkkoviestintä jättää erilaisia digitaalisia jälkiä ihmistoiminnasta, ja nämä jäljet antavat uudenlaisia tutkimusmahdollisuuksia myös yhteiskuntatieteiden näkökulmasta. Samalla uudet aineistot vaativat menetelmätaituruutta: tyypillisesti laskennallisen yhteiskuntatieteen asetelmissa tavalla tai toisella isot tekstiaineistot kääntyvät numeroiksi, joita sitten konteksti mielessä pitäen pyritään tulkitsemaan. Samaan aikaan small data on kuitenkin myös merkityksellistä: ilmiöiden syvällinen ymmärtäminen melkeinpä vaatii, että ainakin pieniä osia aineistosta tutkitaan myös perinteisin laadullisin menetelmin. Ihan vielä ihmisten tuottaman teksin äärellä ei uskalla luottaa pelkkään tietokoneeseen.

Ensi viikolla SG:ssä teemana muuten konepuheen matematiikka ja vuorovaikutus!

screen-shot-2016-10-14-at-11-47-48

DCCS syyskuussa: aihemallinnusta sekä algoritmejä

Syyskuun viimeisenä perjantaina, tieteiden yön iltapäivällä, Digital Citizens, Communities, and Society kokoontui pohtimaan yhteiskuntatieteen ja tieto- ja viestintäteknologian rajamaastoa. Meillä oli kaksi vuorovaikutteista johdantoa, joita pyrin hiukan tiivistämään blogin muotoon.

Uusia menetelmämahdollisuuksia

Tuukka Ylä-Anttila puhuiaihemallinnuksesta (topic modeling) sosiologin työvälineenä, esitellen kolmea projektia: kehysanalyysiä ilmastopoliittisesta keskustelusta, poliittisten keskustelujen hakemista Suomi24-keskustelualueelta sekä MV-lehden sisällön luokittelua

Lyhyesti, aihemallinnuksessa algoritmi luokittelee sanoja sekä “dokumentteja” esiintymisien mukaan ryhmiin ohjaamattomasti. Yhteiskuntatieteilijä voi käyttää mallia keskustelunaiheiden luokitteluun, mutta suuri kysymys on, onnistuuko keskustelun tapojen kuten kehysten tai diskurssien luokittelu.

Käytimme varsin paljon aikaa pohtimalla miten aihemallinnukset tulisi validoida ja –  ainakin itse – valitin kunnon ohjekirjan puuttumista tälle osa-alueelle. Ylä-Anttila kolleegoineen ovat dokumentoineet prosessin, jossa ensin arvioidaan aihemallinnuksen sanapilviä, minkä jälkeen arvioidaan aiheissa olevien dokumenttien sisältöjä ja tarkennetaan aihetulkintaan jos se on tarpeen. Lähestymistapa kuulosti varsin toimivalta, jäänkin kuuntelemaan mitä mieltä vertaisarvioitsijat ovat siitä.

Toisaalta, myös aiheiden tulkinta herätti huolta: voivatko kyseessä olla framet, diskurssit tai mitkään muut yleisesti käyttämät teoretisoinnit sisällöstä. Tätä ei myöskään helpota, kuten Tuukka muistutti, että framestakin on useampia erilaisia merkityksiä ja tulkintoja yhteiskuntatieteessä. Itse pohdiskelin ääneen, että miksi aiheita pitäisi sanoa joksikin muuksi kuin aiheiksi, mutta Tuukka nopeasti vastasi, että tuo pohdinta liittyy siihen, mihin aiempaan tutkimustraditioon sitten itse sijoittuu. Teoreettisilla käsitteillä on pitkät juuret, jotka vaikuttavat niiden tulkintaan.

Tämä lieneekin valtavirtaistuksen suurin ongelma, jollain tavalla laskennalliset menetelmät ja niiden tulokset pitäisi saada puhumaan traditionaalisten yhteiskunnallisten menetelmien kanssa. Tällöin yhteinen terminologia esimerkiksi auttaa jo varsin paljon, helpoittaa valtavirta-yhteiskuntatieteilijän pohdintaa tulosten järkevyydestä ja merkittävyydestä.

Aiheesta lisää sekä muutama uudehko opinnnäytetyö

Algoritmit sosiaalisessa vuorovaikutuksessa

Jesse Haapoja kertoi juuri jättämästään Helsingin yliopiston jatko-opintosuunnitelmasta, algoritmeistä sosiaalipsykologian kannalta. Hänen keskeinen argumenttinsa on (tai, ehkä paremminkin, minun tulkinta hänen ajatuksestaan), että teknisillä järjestelmillä on toimijuutta mikrotasolla vuorovaikutukstilanteilla – näkökulma joka vielä toistaiseksi puuttuu isoista algoritmien vallankäytön keskustelusta. Algoritmit ja tekniset järjestelmät mahdollistavat ja rajoittavat ihmisten välistä vuorovaikutusta, Tinderin deittaussovelluksesta Pokémon Go:n algoritmin päättämiin vuorovaikutuspaikkoihin.

Jessen tavoite tutkimuksessaan on havainnoida kuinka algoritmit tulevat esille mikrotasolla ihmisten välisessä vuorovaikutuksessa sekä ajatella, miten ihmiset reagoivat algoritmien toimintaan. Eräs esimerkki on vaalikoneet, joiden algoritmit eivät vain neuvo meitä äänestämään vaan myös rakentavat poliittista identiteettiä.

Mikä on oikein ja mikä väärin?

Viimeisenä aiheena eräs pro gradu-työn tekijä Matti Autio esitteli pohdintaansa Facebookin kaupunginosa-ryhmien toiminnasta ja siellä esiintyvästä rajoittavasta sekä yhdentävästä viestittelystä. Hänen suurin kysymys oli tutkimuseettinen: saako tätä tutkimusta oikeastaan tehdä ja voiko gradussa olla lainauksia näistä ryhmistä ja saako ryhmiä edes tutkia.

Tämä herätti laajaa keskustelua DCCS-ryhmässä, tutkimuseettinen pohdinta on vielä kesken. Johtopäätöksemme taisi olla, ettei isojen ryhmien tutkimisessa ollut isompia ongelmia, mutta lainaukset olisi hyvä tarkistaa jokaiselta osallistujalta erikseen. Vaikka verkon tutkimusta onkin tehty jo useampi vuosikymmen, samat eettiset kysymykset ovat edelleen avoinna. Lopuksi päädyimme suosittelemaan vielä opiskelijaa tarkastaman Internet-tutkijoiden AOIRn eettisen toimikunnan ohjeita aiheesta.