Varovaisuutta aihemallinnuksen kanssa

Eräs laskennallisten menetelmien tällä hetkellä suosituin sovellus on aihemallinnus eli topic modeling. Se mahdollistaa laajojen tekstiaineistojen jakamisen ryhmiin ja tällä tavalla “kaukoluvun” aineistosta. Tietenkään sen ei koskaan ole tarkoitus korvata aineiston lähilukua (esim. Grimmer & Stewart, 2013), mihin voi käyttää vaikka etnograafisia menetelmiä.

Eräs valinta aihemallinnuksesta on aiheiden määrän, eli tutummin, k:n valinta. Kirjallisuudessa usein esiintynyt tapa tähän on katsoa muutama eri arvo ja valita näistä selkeiten tulkittavissa oleva. Kritisoin tapaa jo marraskuun Rajapinta-meetupissa. Yksinkertainen koeasetelma näytti kuinka ihmisten mielipide selkeydestä vaihtelee merkittävästi.

Aihemallinnus: tuloksia eri k:n arvoilla
Alustava luokitus aineiston sisällöstä eri aihemallinnuksilla. Katso vain kuva.

Kuvassa näemme kuinka niiden tulkinnat myös tuottavat hiukan erilaisia näkemyksiä aineistoista. (Varoitus: nämä ovat vielä alustavia nimiä, eli en ole vielä itse täysin tyytyväinen näihin.) Olen pyrkinyt ryhmittelemään aineiston niin, että samanteemaiset aiheet olisivat samalla rivillä.

Kuvasta nähdään esimerkiksi kuinka aiheiden määrän lisääntyminen kahteenkymmeneen aiheeseen selkeästi tuo jotain uusia ajatuksia aineistoon, erityisesti alueelisuuden ja globalisaation. Toisaalta aiheena esimerkiksi suomalaisuus on osassa malleissa mukana ja osassa ei, mikä luultavasti kuvaa aihemallinnusprosessissa olevaa satunnaisuutta. Toisaalta 26 ja 30 aiheen mallit tuovat esille taloudellisuuden, perusturvan sekä edustuksellisuuden aiheita.

Aihemallinnuksen soveltajille uutiset ovat valitettavia: en itse pitäisi sopivana ajaa aihemallinnusta teoreettisesti mielekkäällä lukumäärällä tai tutkimalla muutamaa eri aihemäärää. Riskit vääristä tulkinnoista ovat ilmeiset näissä tapauksissa. Sen sijaan pitäisin itse toivottavana aihemäärän valitsemista laskennallisin kriteerein, kuten log-likelihood arvoja käyttämällä. Vaikka näistäkin käydään ritstiriitaista keskustelua, tämä silti vähentäisi tiettyä epävarmutta mikä nykyiseen käytäntöön tulee.

Erityiskiitos Koneen Säätiölle tutkimuksen tukemisesta sekä Tieteen tietotekniikan keskus CSClle laskenta-ajasta.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s