Slämärit ja superkäyttäjät: ihmeellinen Internet tutkijan työpöydällä

 

https://www.flickr.com/photos/meddygarnet/8346190491/
(cc) Morgan @Flickr

Smarter Social Media Analytics -tutkimushankkeessa sovellamme ja kehitämme erilaisia koneoppimiseen pohjautuvia menetelmiä sosiaalisen median tekstisisältöjen analysointiin. Fiksumpi  analyysi kuitenkin vaatii algoritmien rinnalle ihmisilmää – vähintäänkin kehitysvaiheessa.

Olen lukenut eilen ja tänään  SSMA-hankkeemme aineistosta läpi parintuhannen viestin otoksen, jossa viestit koskevat kasvissyöntiä tavalla tai toisella. Otos liittyy koko aineistosta tehtyyn aihemallinnukseen, jossa noin puolen miljoonan viestin massasta on ohjaamattoman koneoppimisen avulla erotettu erilaisia topiikkeja tai teemoja. Mallinnuksen syötteenä skripti antaa kasan perusmuotoistettuja sanalistoja, jotka kuvaavat näitä erilaisia aiheita. Lopulta kuitenkin ainoa tapa varmistaa, että tehty analyysi toimii kuten pitää, on ihmisvoimin tarkistaa mistä topiikeissa oikeastaan on kysymys. Tämä tapahtuu esimerkkiviestejä tarkistamalla.

Tarkistuskeikka on pieni matka yhä vain ihmeelliseen Internetiin. Sosiaalisen median tutkimuksen parasta antia ovat usein juuri näkymät vuorovaikutuksen maailmoihin, joita ihmiset verkossa elävät ja tuottavat mikrotasolla. Tässä kaksi hienoa esimerkkiä kasvisruokakeskusteluista.

**

Viestejä läpikäydessä olen kohdannut kymmeniä erilaisia virtuaalislämäreitä. Omassa nuoruudessani slämäri oli vihko, jossa jokaisella sivulla oli eri kysymys ja vastaukset kirjattiin tietyllä symbolilla tai anonyymisti. Nykypäivän slämäri on keskustelupalstalla kiertävä lista numeroituja kysymyksiä, johon kukin kirjoittaja vastaa, tai lista [ ] väittämiä, joista [x] rastitaan kirjoittajaan sopivat kohdat. Arvioin kirjoittajien olevan enimmäkseen melko nuoria.

Tällaiset memeettiset sisällöt ovat toistuvia, mutta kuitenkin niin monipuolisia tekstimuotoja, ettei sanojen yhdessä esiintymisen perusteella aiheita luokitteleva algoritmi osaa niitä niputtaa. Virtuaalislämäreissä kuitenkin kiertää kasvisyöntiä koskevia kysymyksiä, joiden vuoksi kaikki nuo tuhannet viestit näkyvät jokaisessa kasvissyönti-sanalla tehdyssä haussa tai tietyllä sanalla piirretyissä trendikuvaajissa. Toki ne osaltaan trendistä kertovatkin; kasvissyönti puhututtaa.

Toinen ihmettelyn aihe oli aihemallinnuksessa erästä topiikkia kuvaava sana, joka ei ollut mikään suomen kielen tunnistettava sana. Pienen selvittelyn jälkeen paljastui, että kyseessä on yksi Suomi24-foorumin superaktiivinen käyttäjä, joka kirjoittaa palstalle joka päivä keskimäärin kolmetoista viestiä päivässä.

Viestimäärä on ilmeisen tarpeeksi, että saa aikaan oman aiheen aihemallinnuksessa, kun muut käyttäjät mainitsevat kyseisen nimimerkin tarpeeksi usein. Selvästi siis onnistunut keskustelunherättäjä ja oman mikroyleisönsä julkkis, jonka viesteillä voi olla suurikin vaikutus keskustelujen aihepiiriin.

**

Molemmat esimerkit ovat sellaisia, joita on hankala automaattisesti tekstin seasta erottaa ilman laadullista tarkastelua, tai vähintäänkin sen tekeminen vaatisi melkoisia tapauskohtaisia virityksiä koodiin. Viritykset taas ovat varsinkin tuotantokäytössä aika hankalia ja toisaalta tekevät analyysista prosessin, jonka toimintaperiaatteita on vaikea ymmärtää ja tuloksia tulkita.

Silti ne ovat aika oleellisia mikrotason havaintoja siitä dynamiikasta, jolla vuorovaikutus verkossa muodostuu.

Kohti fiksumpaa keskustelujen mallinnusta siis pyritään, mutta todellisuus on aina vaan analytiikkaa ihmeellisempää. Se on jotenkin lohdullista.

Varovaisuutta aihemallinnuksen kanssa

Eräs laskennallisten menetelmien tällä hetkellä suosituin sovellus on aihemallinnus eli topic modeling. Se mahdollistaa laajojen tekstiaineistojen jakamisen ryhmiin ja tällä tavalla “kaukoluvun” aineistosta. Tietenkään sen ei koskaan ole tarkoitus korvata aineiston lähilukua (esim. Grimmer & Stewart, 2013), mihin voi käyttää vaikka etnograafisia menetelmiä.

Eräs valinta aihemallinnuksesta on aiheiden määrän, eli tutummin, k:n valinta. Kirjallisuudessa usein esiintynyt tapa tähän on katsoa muutama eri arvo ja valita näistä selkeiten tulkittavissa oleva. Kritisoin tapaa jo marraskuun Rajapinta-meetupissa. Yksinkertainen koeasetelma näytti kuinka ihmisten mielipide selkeydestä vaihtelee merkittävästi.

Aihemallinnus: tuloksia eri k:n arvoilla
Alustava luokitus aineiston sisällöstä eri aihemallinnuksilla. Katso vain kuva.

Kuvassa näemme kuinka niiden tulkinnat myös tuottavat hiukan erilaisia näkemyksiä aineistoista. (Varoitus: nämä ovat vielä alustavia nimiä, eli en ole vielä itse täysin tyytyväinen näihin.) Olen pyrkinyt ryhmittelemään aineiston niin, että samanteemaiset aiheet olisivat samalla rivillä.

Kuvasta nähdään esimerkiksi kuinka aiheiden määrän lisääntyminen kahteenkymmeneen aiheeseen selkeästi tuo jotain uusia ajatuksia aineistoon, erityisesti alueelisuuden ja globalisaation. Toisaalta aiheena esimerkiksi suomalaisuus on osassa malleissa mukana ja osassa ei, mikä luultavasti kuvaa aihemallinnusprosessissa olevaa satunnaisuutta. Toisaalta 26 ja 30 aiheen mallit tuovat esille taloudellisuuden, perusturvan sekä edustuksellisuuden aiheita.

Aihemallinnuksen soveltajille uutiset ovat valitettavia: en itse pitäisi sopivana ajaa aihemallinnusta teoreettisesti mielekkäällä lukumäärällä tai tutkimalla muutamaa eri aihemäärää. Riskit vääristä tulkinnoista ovat ilmeiset näissä tapauksissa. Sen sijaan pitäisin itse toivottavana aihemäärän valitsemista laskennallisin kriteerein, kuten log-likelihood arvoja käyttämällä. Vaikka näistäkin käydään ritstiriitaista keskustelua, tämä silti vähentäisi tiettyä epävarmutta mikä nykyiseen käytäntöön tulee.

Erityiskiitos Koneen Säätiölle tutkimuksen tukemisesta sekä Tieteen tietotekniikan keskus CSClle laskenta-ajasta.