Yhteiskunnallista analyysiä ohjelmakoodilla

Kirjoittajat: Matti Nelimarkka ja Salla Laaksonen, julkaistu myös Uutistamossa.

Medioiden käytön siirtyminen digitaaliseksi vaikuttaa myös yhteiskuntatieteelliseen tutkimukseen. Ennen kaikkea se mahdollistaa yhä suurempien aineistojen keräämisen ja analysoinnin. Laskennallinen analyysi tarjoaa yhden mahdollisuuden laajojen datamassojen tutkimukseen. Nykyihmisen arkeen kuuluu ainakin kahdenlaisia medioita: käyttäjien luoman sisällön ympärille rakentuneita medioita kuten Facebook, Twitter tai Instagram sekä perinteisiä joukkoviestimiä kuten Helsingin Sanomat, Yleisradion uutiset tai elokuvien suoratoistopalvelut. Molempien medioiden käyttö on vahvasti siirtymässä digitaaliseksi.

Olemme yhteiskuntatieteilijöitä, joita kiinnostaa digitaalinen media ja sen eri muotojen yhteispeli. Digivaalit 2015-hankkeessa tutkimme perinteisen ja sosiaalisen median vuorovaikutusta sekä sitä, miten julkisuuden agenda muodostui kevään 2015 eduskuntavaaleissa. Tutkijalle jo pelkästään vaaleihin liittyvien verkkosisältöjen valtava määrä vaikuttaa hankalasti rajattavalta ja pysäytettävältä. Esimerkiksi käsinkin keräämällä pystyy tarkistamaan, että kevään 2015 vaaleissa naisehdokkailla oli miehiä useammin profiili sosiaalisen median palveluissa. Mutta oliko ehdokkaiden lähettämien vaaliaiheisten twiittien määrässä eroa sukupuolten välillä? Käsin kerättävän aineistojen sijasta tällaiseen kysymykseen on helppo vastata laskennallisen analyysin keinoin.

Aineiston keräämistä helpottavat verkkopalveluiden tarjoamat ohjelmointirajapinnat (API eli application programming interface). Niiden avulla voidaan hakea digitaalista sisältöä palvelun omista tietovarastoista. Omassa hankkeessamme keräsimme aineistoa esimerkiksi Twitteristä ehdokkaiden tunnusten perusteella sekä yleisesti käytetyillä aihetunnisteilla, kuten #vaalit2015. Facebookista puolestaan pystyimme rajapinnan avulla keräämään sisältöä ehdokkaiden julkisilta sivuilta.

Keskityimme sosiaalisen median ja perinteisen median vuorovaikutukseen, minkä vuoksi oli tarpeen kerätä sisältöjä myös perinteisten medioiden verkkosivuilta. Ne eivät kuitenkaan yleensä tarjoa rajapintoja digitaaliseen materiaalinsa, joten tilanne on hiukan haastavampi. Rajapintojen puuttuessa jouduimme rakentamaan työkalut alusta asti itse: harjoitimme niin sanottua ”scrappailua” tai raapimista – kävimme verkkosivua läpi ja poimimme siitä ohjelmakoodilla uutistekstin erikseen. Projektissa syntyneet työkalut ovat avointa lähdekoodia ja löytyvät Github-kansiostamme.

Digivaalit -projektin kuluessa kertyi tutkittavaksi laaja aineisto erilaista tekstipohjaista materiaalia. Tällä hetkellä aineistossa on muun muassa 750 000 twiittausta sekä 5 300 erillistä uutista. Tällaisilla määrillä tutkijoiden on itse mahdotonta alkaa lukea ja analysoida sisältöä. Tässä pääsemmekin laskennallisen yhteiskuntatieteen varsinaiseen merkitykseen: se ei keskity vain aineistojen keräämiseen, vaan myös pyrkii vastaamaan erilaisiin tutkimuskysymyksiin ohjelmakoodin avulla.

Pienten koodipätkien avulla voidaan esimerkiksi tutkia käyttäjien muodostamia verkostoja, luokitella aktiviteetteja, kuten tykkääminen tai twiittaus, tai tunnistaa tietokoneella käyttäjien tapoja ilmaista itseään: mitä sanamuotoja on käytetty, onko kyseessä positiivinen tai negatiivinen viesti. Laajemmassa skaalassa digitaalinen aineisto mahdollistaa myös keskusteluteemojen ja yhteisöjen tutkimisen eri verkkopalveluiden tasolla.

Laskennallisen analyysin avulla voimme siis vastata esimerkiksi alussa esitettyyn kysymykseen siitä, onko ehdokkaiden sosiaalisen median käytössä sukupuolieroja. Pulmaa voi lähestyä kysymällä, onko miesehdokkailla useammin profiili kuin naisehdokkailla tai ovatko jommankumman sukupuolen edustajat enemmän äänessä sosiaalisessa mediassa. Voisimme myös tutkia sitä, jaetaanko nais- vai miesehdokkaiden tuottamia sisältöjä enemmän.

Käyttäjän sukupuoli on kuitenkin sellainen tieto, jota sosiaalisen median rajapinnat eivät tarjoa. Siksi jouduimme yhdistämään aineistoomme muualta saatavaa tietoa. Tässä tapauksessa avuksi tulivat medioiden julkaisemat vaalikoneaineistot. Kun niistä löytyvä sukupuolitieto yhdistettiin tutkimusaineistoomme, havaitsimme, että sekä Twitterissä että Facebookissa naisehdokkailla oli miesehdokkaita useammin profiili. Sen sijaan twiittien määrissä erot sukupuolten välillä olivat niin pieniä, ettemme voineet luotettavasti todeta kummankaan sukupuolen olevan tilastollisesti aktiivisempi.

Laskennallinen analyysi mahdollistaa myös laajojen aineistojen käsittelyn nopeasti. Tutkimusprosessin nopeuttamisen lisäksi ajankohtainen sovellus analyysille voisi olla katsojien televisiolähetykseen lähettämien Twitter-viestin tulkinta lähetyksen aikana. Nykyään vain muutamat, toimituksen valitsemat twiitit pääsevät osaksi lähetystä. Laskennallisen analyysin avulla kaikkia twiittejä voitaisiin käsitellä lähetyksen aikana ja vastata kysymyksiin kuten mitä ne käsittelevät ja miten. Tällöin lähetyksessä voitaisiin päästä hiukan paremmin kiinni siihen, mitä twitter-keskustelijoilla on sanottavana ja ottaa heidät huomioon aidosti aktiivisena yleisönä.

Käyttökohteita laskennalliselle analyysille siis riittää, mutta tieteenteon kannalta keskeistä on tulosten luotettavuus. Tutkimuksessa suurimmat virheet liittyvät aineiston keräämiseen ja analyysiin: joko kerätään vajavainen tai vinoutunut aineisto tai analyysissä tehdään virheitä. Siksi tarvitaan läpinäkyvyyttä tutkimuksen eri vaiheisiin ja varovaisuutta analyysin suorittamisessa. Valitettavasti lukijalle nämä vaiheet usein jäävät piiloon ja heille tarjotaan vain tuloksia ja tulkintoja.

Yleensä luotettavuutta tarkastellaan katsomalla, että laskennallisesti saadut tulokset vastaavat muilla tavoin tehtyjä havaintoja. Itse tarkastimme, että twiiteissä oli sanoja jotka olivat ajankohtaisia. Lisäksi neljä tutkijaa suoritti etnografista havainnointia verkon eri areenoilla kirjaten muistiin havaintojaan vaalien ympärillä käytävästä keskustelusta ja ehdokkaiden toiminnasta. Vaikka välillä tuloksissa löytyy jotain hämmentävää, niin ainakin kokemuksemme mukaan kyseessä on silloin useammin virhe ohjelmoinnissa – ei maailmaa mullistava löydös. Siksi ihmisten tekemä työ ja tulkita ovatkin keskeistä myös laskennallista analyysia käytettäessä.

Kaiken automatiikan riemun keskellä on syytä muistaa, että isotkin aineistot ovat aina vain otoksia yhteiskunnasta ja ne ovat syntyneet tietyssä kontekstissa. Laskennallisen yhteiskuntatieteen pyrkimyksenä täytyykin olla yhteiskunnallisten ilmiöiden suhteiden ja rakenteiden laajempi tarkastelu, ei vain prosenttilukujen kerääminen. Erilaisten yhteiskunnallisten kontekstien ymmärtäminen koodin rinnalla on yhä tärkeämpää. Datamassat ja ohjelmakoodi voivat silti tarjota kiinnostavan keinon niiden tutkimukseen.

One thought on “Yhteiskunnallista analyysiä ohjelmakoodilla

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s