Ohjaamaton koneoppiminen ja tekstintulkinnan objektiivisuus

(cc) pstiegele @Pixabay

Ohjaamattomat koneoppimismenetelmät ovat viime vuosina saaneet paljon suosiota yhteiskuntatieteellisessä tekstianalyysissa. Aineistoa automaattisesti jäsentelevän ohjaamattoman mallinnuksen ajatellaan voivan tehdä tekstintulkinnasta objektiivisempaa. Tulkinnallisen tekstianalyysin kontekstissa objektiivisuutta ei kuitenkaan tulisi samaistaa ajatukseen mekaanisesta laskennasta, joka eliminoi subjektiivisen tulkinnan analyysiprosessin jostakin vaiheesta. Pikemminkin ohjaamaton oppiminen voi auttaa tekemään tulkinnallisista prosesseista läpinäkyvämpiä ja mahdollistaa tulkintojen pohjaamisen aiempaa kattavammalle informaatiolle.

Koneoppimismenetelmien on viime vuosina esitetty tarjoavan ratkaisun joihinkin yhteiskuntatieteellistä tekstintulkintaa pitkään vaivanneisiin ongelmiin. Etenkin ohjaamattoman koneoppimisen ajatellaan mahdollistavan uudenlaisen lähestymistavan tekstintulkintaan: sellaisen, jossa tutkija ensin mallintaa laskennallisesti aineiston piirteitä – kuten teksteissä esiintyviä sanoja – ja vasta mallintamisen jälkeen aloittaa varsinaisen tulkinnallisen työn. Näin ohjaamaton oppiminen toisi analyysiprosessiin uuden, mekaaniseen laskentaan perustuvan vaiheen, joka myöhästyttää tekstien subjektiivista tulkintaa. Kuten John Mohr ja Petko Bogdanov esittävät, 

One counts, and then one begins to interpret. In this sense, what topic models and other types of automated text analysis tools do for cultural researchers is to shift the locus of subjectivity within the methodological program — interpretation is still required, but from the perspective of the actual modeling of the data, the more subjective moment of the procedure has been shifted over to the post-modeling phase of the analysis.

(Mohr & Bogdanov 2013, p. 560.)

Ohjaamatonta laskentaa koskevan kiinnostuksen taustalla on pitkäaikainen huoli tekstintulkinnan objektiivisuudesta. Yhteiskuntatieteilijät ovat perinteisesti suhtautuneet epäilevästi hermeneuttiseen lähiluentaan nojaaviin humanistisiin tulkintakäytäntöihin. Esimerkiksi kulttuurisosiologi Jeffrey Alexander ja muut (2012, p. 21) huomauttavat, että tekstien syvälliseen lähiluentaan pohjaavia analyysiprosesseja ei kyetä riittävän systemaatisesti selittämään muille tutkijoille, eikä tehtyjen tulkintojen edustavuutta tai empiiristä tukea siksi voida arvioida. Toisaalta tekstien kirjoituskontekstille ja merkitysnyansseille herkän hermeneuttisen luennan on esitetty olevan välttämätöntä sosiaalisten ilmiöiden ymmärtämiseksi (esim. Rabinow & Sullivan 1979). Ohjaamattomiin koneoppimismenetelmiin kohdistuva toive onkin, että aineiston mallintaminen mahdollistaisi tulkintaprosessin aiempaa systemaattisemman arvioinnin, varsinaista tulkitsevaa luentaprosessia rajoittamatta. Tällä perusteella ohjaamattoman mallinnuksen on esitetty olevan esimerkiksi aikaisempia, tekstien systemaattiseen koodaamiseen perustuvia menetelmiä parempi lähestymistapa tulkinnallisen tekstianalyysin systematisoimiseen (Lee & Martin 2015; ks. myös Biernacki 2012 ja 2014).

Mutta miten ohjaamattomia menetelmiä oikeastaan käytetään tukemaan tekstintulkintaa yhteiskuntatieteissä, ja missä mielessä niiden voi sanoa tekevän tulkinnasta objektiivisempaa? Näitä kysymyksiä tarkastelimme Petri Ylikosken kanssa syyskuussa 2020 Synthese-lehdessä julkaistussa artikkelissamme Humanistic interpretation and machine learning. Artikkelissa erittelimme yhteiskuntatieteilijöiden tapoja käyttää aihemallinnusta tekstintulkinnassa ja argumentoimme, että ohjaamattoman oppimisen objektiivisuutta ei tulisi samaistaa ideaan mekaanisesta laskentaprosessista, joka edeltää tutkijan tulkinnallista aineistoon perehtymistä. Pikemminkin mallintaminen voi auttaa tutkijoita tekemään tulkintaprosesseista läpinäkyvämpiä ja pohjaamaan analyysinsa aiempaa laajemmille aineistoille. Siksi ohjaamattoman oppimisen objektiivisuushyötyjenkin tulisi ajatella liittyvän tutkijoiden parantuneisiin mahdollisuuksiin vakuuttaa toisensa tekemiensä tulkintojen oikeellisuudesta. Tämän kaltainen objektiivisuus on kriittisen tulkinnallisen keskustelun piirre, eikä palaudu suoraan laskennallisen mallinnusprosessin ominaisuuksiin.

Tässä blogikirjoituksessa esitän lyhyen tiivistyksen artikkelimme keskeisestä argumentista, käyttäen esimerkkinä aihemallinnusta.

Ohjaamattoman mallintamisen evidentiaalinen rooli

Tekstiaineistoja mallintavat yhteiskuntatieteilijät pyrkivät tuottamaan tekstien sisällöstä ja rakenteesta tietoa, joka voisi auttaa heitä vastaamaan yhteiskuntatieteellisesti kiinnostaviin kysymyksiin. Siksi keskeinen haaste laskennallisessa tekstianalyysissa on artikuloida, miten mallintamalla tuotetut tulokset suhteutuvat kiinnostuksen kohteena oleviin merkitysilmiöihin. Aihemallinnus tuottaa tuloksenaan tietoa aineistossa suurella todennäköisyydellä yhdessä esiintyvistä sanoista, sekä näiden sanajoukkojen jakautumisesta aineiston eri osiin (Blei 2012). Miten näiden tulosten tulisi ajatella liittyvän yhteiskuntatieteilijöitä kiinnostaviin merkitysilmiöihin, kuten keskusteluaiheiden kehystyksiin ja poliittisiin agendoihin, tai niiden taustalla vaikuttaviin diskursseihin ja valtarakenteisiin?

Aihemallinnusta käyttävät yhteiskuntatieteilijät ovat omaksuneet kahdenlaisia asenteita suhteessa tähän ongelmaan. Kutsumme niitä artikkelissamme aiherealistiseksi ja aiheinstrumentalistiseksi asenteeksi. Aiherealistisessa asenteessa aihemallinnusprosessin ajatellaan operationalisoivan jonkin kiinnostuksen kohteena olevan teoreettisen käsitteen ja tuottavan evidenssiä sen esiintymisestä aineistossa. Esimerkiksi DiMaggio ja muut (2013, p. 593) suhtautuvat aihemallinnuksen tuloksiin realistisesti esittäessään, että mallinnuksen tuottamia aiheita voi käyttää mittaamaan viestinnän tutkimuksessa kiinnostuksen kohteena olevia aiheiden kehystyksiä. Aiheinstrumentalismissa puolestaan mallinnustulosten ei ajatella vastaavan mitään yhteiskuntatieteellisesti kiinnostavaa teoreettista konstruktiota. Korkeintaan mallinnuksen tuottamien sanalistojen ajatellaan tarjoavan aineistosta informaatiota, joka voi olla hyödyllistä aineiston tulkitsevan luennan kannalta. Esimerkiksi Törnberg ja Törnberg (2016) omaksuvat tämän asenteen käyttäessään aihemallinnusta tunnistamaan suuresta keskustelufoorumiaineistosta feminismiä ja islaminuskoa käsitteleviä osioita, joita he sitten käyttävät aineistona myöhemmässä diskurssianalyysissa.

Sekä aiherealismissa että aiheinstrumentalismissa mallintaminen voidaan mieltää mekaaniseksi prosessiksi, joka edeltää varsinaista tekstien tulkintaa. Asenteiden välinen keskeinen ero koskee pikemminkin rooleja, jotka niissä annetaan formaalille mallintamiselle ja tulkitsevalle luennalle. Siinä missä aiherealisti pitää mallinnusta teoreettisesti kiinnostavaa evidenssiä tuottavana prosessina, aiheinstrumentalismissa pääpaino on tekstien tulkitsevalla luennalla, jota formaali mallintaminen jäsentää.

Tästä eroavaisuudesta huolimatta kummassakaan asenteessa mallintamisen ei kuitenkaan ajatella tuottavan evidenssiä irrallaan aineiston tulkitsevasta luennasta. Aiheinstrumentalismin tapauksessa tämä on jokseenkin selvää, sillä analyysin pääpaino on tulkitsevalla luennalla. Mutta myös aiherealistisen mallintajan on kyettävä varmistamaan, että mallinnustulokset todella liittyvät kiinnostuksen kohteena olevaan ilmiöön. Tekstiaineistojen mallintaminen ei ole suoraviivainen prosessi, eivätkä mallintajat voi lähtökohtaisesti olla varmoja siitä, että heidän valitsemansa ohjaamaton menetelmä ja asetetut mallinnusparametrit todella vastaavat tarkoitettua teoreettista konstruktiota. Tämän vuoksi yhteiskuntatieteellisessä aihemallinnuskirjallisuudessa painotetaankin, että mallinnustulokset on aina validoitava, ennen kuin niitä voidaan käyttää teoreettisesti relevanttina evidenssinä (esim. DiMaggio et al. 2013; Grimmer & Stewart 2013; Nelson 2017). Tulosten validaatio voi tapahtua esimerkiksi lukemalla mallintamalla tunnistettuihin aiheisiin liittyviä tekstejä ja tarkistamalla, että ne todella kertovat jotain tarkoitetusta ilmiöstä. Vaihtoehtoisesti aiheiden esiintymistä aineistossa voidaan tarkastella suhteessa aineiston ulkopuolisiin tapahtumiin, joiden voidaan perustellusti odottaa vaikuttaneen aiheiden jakaumiin. Tarkasta lähestymistavasta huolimatta validaatiossa keskeistä on, että mallinnustuloksia arvioivalla tutkijalla on mallinnetusta aineistosta riittävän perusteellinen tulkinnallinen ymmärrys, jota vasten tuloksia voidaan arvioida (ks. esim. DiMaggio ja muut 2013, p. 603; Mohr & Bogdanov 2013, p. 560).

Validaation edellyttämästä aineiston taustaymmärryksestä johtuen aiherealistisella mallintamisellakaan ei voi ajatella olevan vahvaa evidentiaalista roolia tulkinnallisessa analyysissa. Eri taustoista ja teoreettisista lähtökohdista tulevat tutkijat voivat samojen mallinnustulosten pohjalta muodostaa hyvinkin erilaisia tulkintoja aineistosta, ja näin ollen tulosten tulkintaa koskevissa kiistoissa joudutaan lopulta tarkastelemaan tutkijoiden tulkinnallista ymmärrystä aineistosta. Mekaaninen mallinnus ei itsessään voi tuottaa evidenssiä tulkinnallisten kysymysten ratkaisemiseksi, vaan pikemminkin tarjoaa välineen, jonka avulla tulkinnallista keskustelua voidaan mahdollisesti jäsentää ja tukea. Näin ollen myös ohjaamattoman mallinnuksen objektiivisuudenkin tulisi ajatella liittyvän tähän mallinnuksen kriittistä keskustelua tukevaan rooliin, pikemmin kuin tulkinnan myöhästyttämiseen analyysissa.

Tulkinnallisen prosessin skaalautuvuus ja läpinäkyvyys

Miten ohjaamaton mallinnus sitten voi tukea tulkinnallista keskustelua? Artikkelissamme käsittelemme kahta erilaista tapaa, jotka pätevät sekä aiherealismille että aiheinstrumentalismille.

Ensinnäkin koneoppimismenetelmät voivat mahdollistaa suurten ja monipuolisten aineistojen analyysin entistä laajemmalle joukolle tutkijoita. Perinteinen lähiluentaan pohjaava tulkinnallinen analyysi on tyypillisesti rajoittunut käyttämään vain suhteellisen pieniä aineistoja (ks. Williams 2000). Laajojen aineistojen hermeneuttiseen luentaan ovat kyenneet lähinnä yksittäiset virtuoositutkijat, joiden tutkimusprosesseja muiden on hankala arvioida (Lee & Martin 2015). Ohjaamattomien menetelmien avulla tutkijat voivat tuottaa suuristakin aineistosta kokonaiskuvan nopeasti ja sitoutumatta johonkin ennalta päätettyyn aineiston lukemisprosessiin, jonka vaikutusta tehtyihin tulkintoihin ei tunneta. Tutkijat voivat käyttää mallia tunnistamaan aineistosta heidän teoreettisen kiinnostuksensa kannalta relevanteimpia osia ja keskittää aineiston luentansa niihin. Lisäksi mallinnus voi auttaa tunnistamaan tekstien piirteitä tai rakennetta koskevaa informaatiota, jota lähiluennalla olisi vaikea tai mahdoton tunnistaa (esim. suuren mittakaavan toistuvuudet sanojen käytössä). Väitteet tulkinnan myöhästyttämisestä tulisikin ymmärtää juuri tässä mielessä. Ohjaamaton mallinnusprosessi voi tuottaa tutkijoille tulkintaa edeltävää informaatiota koskien aineiston piirteitä ja rakennetta, mutta tämän informaation käyttö evidenssinä on aina sidonnaista tutkijan tulkinnalliseen ymmärrykseen.

Näiden skaalautuvuushyötyjen kohdalla on kuitenkin huomattava, että aiherealistisen mallinnuksen edellyttämä taustaymmärrys aineistosta asettaa rajoituksia myös mallinnuksen tukeman tulkinnan skaalautuvuudelle. Suurta ja huonosti ymmärrettyä aineistoa mallintaessaan tutkijoiden voi olla vaikea validoida mallinnustuloksiaan, sillä mitattujen konstruktien käyttäytymisestä on vaikea tehdä perusteltuja oletuksia. Tämä ei suoraan tarkoita, että mallinnustulosten validaatio on mahdotonta huonosti tunnettujen aineistojen tapauksessa. Pikemminkin on todennäköistä, että tutkijat joutuvat nojaamaan valitun mallinnusmenetelmänsä lisäksi nojaamaan muihin laskennallisiin apukeinoihin, kuten instrumentalistiseen mallinnukseen, joiden avulla aineistosta muodostetaan riittävä ymmärrys (ks. esim. Nelson 2017).

Skaalautuvuushyötyjen lisäksi mallinnus voi tehdä tulkintaprosessista läpinäkyvämmän ja helpomman selittää muille tutkijoille. Mallintaessaan aineistoa tutkijoiden on tehtävä eksplisiittisiä valintoja koskien mallinnusparametreja, kuten esimerkiksi aiheiden määrää ja aihejakaumien muotoa aihemallinnuksessa. Nämä valinnat voidaan kommunikoida tarkasti muille tutkijoille, jotka voivat halutessaan toistaa täsmälleen jonkin tutkimuksen taustalla olevat mallinnusaskeleet ja muodostaa tuloksista omat, mahdollisesti eriävät tulkintansa. Perinteisessä tulkinnallisessa analyysissa aineiston lukemisessa tehtyjen valintojen avaaminen muille tutkijoille on tyypillisesti vaikeaa, ja näin ollen mallintaminen voi helpottaa tulkintojen vertailua ja kritiikkiä. Esimerkiksi mahdollisten eriävien tulkintojen määrää voidaan kartoittaa helpommin, antamalla usean tutkijan tehdä itsenäisesti tulkintoja samoista mallinnustuloksista (Maier et al. 2018). Joissakin tutkimuksissa on jopa joukkoistettu tulkintaprosessi eriävien tulkintojen kartoittamiseksi (Stier et al. 2017). Vastaavan asetelman toteuttaminen suurten tekstiaineistojen hermeneuttisessa tulkinnassa olisi vähintäänkin haastavaa. Lisäksi mallinnustulosten tarjoama kokonaiskuva aineistosta auttaa tutkijoita perustelemaan, miten he valitsivat lukemansa aineistosta lukemansa esimerkkitekstit. Tämä lieventää epäilyksiä siitä, että tulkinnat ovat seurausta arbitraarisesta lukemisjärjestyksestä tai “kirsikoiden poimimisesta” esimerkkiteksteiksi (ks. Baker & Levon 2015; Törnberg & Törnberg 2016). Tekstien otantaprosessin systematisoiminen on toki ollut aikaisemminkin mahdollista. Mutta laskennallinen mallintaminen mahdollistaa eri analyysipolkujen nopean ja systemaattisen kokeilun ja tehtyjen valintojen täsmällisen kommunikoimisen tavalla, joka aikaisemmissa menetelmissä on ollut haastavaa (esimerkiksi koodaamiseen pohjaavien analyysien toistaminen on osoittautunut vaikeaksi; ks. Biernacki 2012).

On tärkeää huomata, että nämä ohjaamattoman oppimisen tuomat läpinäkyvyyshyödyt edellyttävät tulkitsijoilta tietynasteista teknistä ymmärrystä mallinnusprosessista ja siihen sisältyvistä valinnoista. Esimerkiksi aihemallinnuksen tapauksessa on tärkeää ymmärtää, miten aihemäärän valinta sekä muut mallinnusparametrit ja aineiston esikäsittelyvaiheet vaikuttavat tuloksiin. Opaakkien ohjaamattomien menetelmien käyttö ei tue tulkinnallisen keskustelun arvioitavuutta. Toinen mallinnuksen tuoman läpinäkyvyyden ennakkoehto on, että tutkijat dokumentoivat analyysiprosessinsa riittävän eksplisiittisesti, ja että muilla tutkijoilla on pääsy heidän mallintamiinsa aineistoihin ja käyttämiinsä työkaluihin. Läpinäkyvyys ei ole laskennallisen mallinnuksen sisäsyntyinen ominaisuus, vaan se nojaa koko tulkinnallisessa prosessissa omaksuttuihin käytäntöihin.

Objektiivisuus tulkinnallisen keskustelun piirteenä

Jos ohjaamattomien menetelmien tekstintulkinnalle tuomat hyödyt liittyvät pääasiassa tulkintaprosessien skaalautuvuuteen ja läpinäkyvyyteen, ei niiden tuomaa objektiivisuuttakaan tulisi yhdistää ajatukseen tulkintaa edeltävästä mekaanisesta mallinnusprosessista. Artikkelissamme esitämmekin, että tällainen mekaanisen objektiivisuuden (Daston & Galison 1992) ideaali johtaa tekstintulkintaa koskevissa keskusteluissa helposti hedelmättömään vastakkainasetteluun tekstien merkityksen syvällisen ymmärtämisen ja formaalien mallinnusmenetelmien välillä. Ohjaamattomien menetelmien objektiivisuus tulisi pikemminkin ymmärtää parantuneiksi mahdollisuuksiksi käydä tulkintoja koskevaa kriittistä keskustelua. Tieteenfilosofit ovat kutsuneet tällaista objektiivisuuden muotoa interaktiiviseksi objektiivisuudeksi (Douglas 2004; Longino 1990), jonka keskeisiä edellytyksiä ovat analyysiprosessien läpinäkyvyys ja avoimuus kritiikille. 

Ohjaamattomien menetelmien voi ajatella parantavan tulkinnallisen tekstianalyysin interaktiivista objektiivisuutta tarjoamalla tutkijoille välineitä vakuuttaa toisensa tulkintojensa oikeellisuudesta. Mallintamalla tutkijat voivat osoittaa toisilleen, että heidän tulkintansa voidaan perustella vedoten analysoituun tekstiaineistoon, ja että tulkinnat eivät ole tulosta ja epäselvistä analyysiprosesseista tai idiosynkraattisista lähtökohdista. Tulkinnallisen tutkimuksen objektiivisuudesta keskusteltaessa ei ole rakentavaa kysyä, voiko mallinnus eliminoida tulkintaa joistakin analyysiprosessin vaiheista. Kiinnostavampaa on selvittää, auttaako mallintaminen tutkijoita hyödyntämään tekstiaineistoihin sisältyvää informaatiota ja arvioimaan kriittisesti toistensa tulkintoja. 

Viitteet

Alexander, J., Jacobs, R., & Smith, P. (2012). Introduction: Cultural sociology today. J. Alexander & P. Smith (Eds.), The Oxford handbook of cultural sociology (3–24). Oxford: Oxford University Press.

Baker, P., & Levon, E. (2015). Picking the right cherries? A comparison of corpus-based and qualitative analyses of news articles about masculinity. Discourse & Communication, 9(2), 221–236.

Biernacki, R. (2012). Reinventing evidence in social inquiry. London: Palgrave MacMillan.

Biernacki, R. (2014). Humanist interpretation versus coding text samples. Qualitative Sociology, 37, 173–188.

Blei, D. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84.

Daston, L., & Galison, P. (1992). The image of objectivity. Representations, 40, 81–128.

DiMaggio, P., Nag, M., & Blei, D. (2013). Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding. Poetics, 41(6), 570–606.

Douglas, H. (2004). The irreducible complexity of objectivity. Synthese, 138, 453–473.

Grimmer, J., & Stewart, B. (2013). Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis, 21(3), 267–297.

Lee, M., & Martin, J. L. (2015). Coding, counting and cultural cartography. American Journal of Cultural Sociology, 3(1), 1–33.

Longino, H. (1990). Science as social knowledge. Princeton: Princeton University Press.

Maier, D., Waldherr, A., Mitner, P., Wiedemann, G., Niekler, A., Keinert, A., et al. (2018). Applying LDA topic modeling in communication research: Toward a valid and reliable methodology. Communication Methods and Measures, 12(2–3), 93–118.

Mohr, J., & Bogdanov, P. (2013). Introduction—Topic models: What they are and why they matter. Poetics, 41(6), 545–569.

Nelson, L. (2017). Computational grounded theory: A methodological framework. Sociological Methods & Research. https://doi.org/10.1177/0049124117729703 

Rabinow, P., & Sullivan, W. (1979). Interpretive social science: A reader. Berkeley: University of California Press.

Stier, S., Posch, L., Bleier, A., & Strohmaier, M. (2017). When populists become popular: Comparing Facebook use by the right-wing movement Pegida and German political parties. Information, Communication & Society, 20(9), 1365–1388.

Törnberg, A., & Törnberg, P. (2016). Combining CDA and topic modeling: Analyzing discursive connections between Islamophobia and anti-feminism on an online forum. Discourse & Society, 27(4), 401–422.

Williams, M. (2000). Interpretivism and generalisation. Sociology, 34(2), 209–224.

Mitä on fiksumpi sosiaalisen median analytiikka?

4601859272_4228421089_z
Kuva: (cc) Matt Wynn

Sosiaalisen median analytiikka pyörii yhä enimmäkseen asiasanahakujen ja niiden seurannan ympärillä. Miten kehittyneemmät tekstianalytiikan menetelmät voivat olla hyödyksi ymmärtämään, mistä keskusteluissa on kyse? Mitä reunaehtoja ja epävarmuuksia suurten lupausten automatiikkaan liittyy?

 

Tekesin rahoittama tutkimushankkeemme Smarter Social Media Analytics päättyi toukokuun lopussa. Tutkimushankkeessa pengoimme yli miljardin viestin sisältävää Futusomen somekeskusteluaineistoa automaattisen analytiikan keinoin ja selvitimme, miten keskusteludata rinnastuu muihin aineistoihin, muun muassa Taloustutkimuksen kyselydataan ja SOK:n tuotteiden myyntilukuihin.

Olemme hankkeen aikana testanneet lukuisia erilaisia ohjatun ja ohjaamattoman koneoppimisen muotoja. Lopputuloksena on syntynyt joitakin toimivia tapoja, mutta on tulut kohdattua myös useampi vesiperä. Mutta nepä vasta ovatkin oppimiskokemuksia! Tässä blogikirjoituksessa tiivistettynä hankkeen päätösseminaarissa pitämäni esitys, jossa koottuja oppejamme hankkeen ajalta.

**

1. Fiksumpi sosiaalisen median analytiikka on ihmisen ja koneen yhteistyötä

Sosiaalisen median analytiikkaan – ja tekoälykeskusteluun laajemminkin – liittyy vahvasti laskennallisuuden rationalisointi ja ns. big data -myytti [1]: mikä tahansa numeroiksi muunnettava tieto, jota voidaan käsitellä algoritmisesti, on automaattisesti luotettavaa ja totta. Näin on varsinkin, jos taustalla on isoja aineistoja eli kaikkien himoitsemaa big dataa.

Todellisuudessa kone on yksinään aika tyhmä, ja automaattinenkin analytiikka vaatii yleensä algoritmin opettamista ja yhteistyötä ihmisen kanssa. Opettaminen tapahtuu esimerkiksi luokittelemalla useita satoja tai tuhansia esimerkkiviestejä halutun kysymyksen mukaisesti. Projektissa esimerkiksi koulutimme algoritmia tunnistamaan ydinvoimaan myönteisesti tai kielteisesti suhtautuvia viestejä. Tehtävä ei ole helppo, sillä ihmisten kannat ovat monipolvisia: “Ydinvoima on OK, mutta Rosatom ei.”

Matemaatikko ja data scientist Cathy O’Neil muistuttaa kirjassaan ja Ted Talk -puheenvuorossaan algoritmien vinoutumisesta: algoritmit automatisoivat status quo -tilaa, sillä ne rakentuvat aina historiallisen datan ja sen rakenteen päälle. Maailma ei ole täydellinen, ja sen epätäydellisyys heijastuu myös koneoppimiseen ja tekoälyyn. Siksi rinnalle tarvitaan ihmisajattelua arvioimaan algoritmien oikeellisuutta ja vaikutuksia.

2. Fiksumpi someanalytiikka vaatii mietittyä datan esikäsittelyä

Automaattiseen tekstianalytiikkaan piiloutuu paljon valintoja. Niiden tekeminen alkaa jo aineiston rajauksesta: harvoin on laskentaresursseja tutkija kaikkea saatavilla olevaa dataa, joten se pitää ensimmäiseksi rajata tietyillä hakusanoilla. Millä sanoilla saadaan esimerkiksi haaviin “koko” ydinvoimakeskustelu? Jokaisessa viestissä ei välttämättä mainita ydinvoima-sanaa, vaan tärkeitä avainsanoja voivat olla esimerkiksi voimaloiden sijaintipaikat. Hakusanojen kehittely vaatii usein sekin ihmisasiantuntijan aivoja.

Oleellista on myös ymmärtää käytössä olevan datan mahdolliset rajoitukset ja niiden vaikutukset analyysiin. Esimerkiksi tutkimuskäyttöön luovutettu Suomi24-aineisto on periaatteessa koko aineisto, mutta tietokantavirheen vuoksi aineistosta puuttuu paljon viestejä vuosilta 2004-2005. Tällainen kuoppa näkyy jokaisessa aineistosta piirrettävässä aikajanassa, ja sitä tuijottaessaan tutkija tulee helposti tehneeksi virheellisiä tulkintoja keskusteluaiheen katoamisesta ellei aineiston koostumus ole tiedossa.

Analyysialgoritmit vaativat usein myös aineiston esikäsittelyä. Suomen kielen kohdalla se tarkoittaa esimerkiksi aineiston perusmuotoistamista, joka vie aikaa ja resursseja. Lisäksi tekstimassasta poistetaan tyypillisesti yleisimmät, merkityksettömät sanat eli ns. stopwordit. Niiden poistaminen on kuitenkin samalla myös valinta siitä, mikä on merkityksellistä ja mikä ei. Kiveen hakattuja ohjeita tai yleisesti hyväksyttyä listaa ei kuitenkaan ole olemassa, vaan ratkaisuja tehdään tapauskohtaisesti. Tiedossa on, että  poistettujen sanojen lista vaikuttaa lopulliseen analyysiin, mutta on epäselvää millä tavoin.

3. Fiksumpi sosiaalisen median analytiikka tarvitsee ymmärrystä alustoista ja niiden kulttuureista

Laskemisen ja big datan huumassa on helppoa unohtaa laadullisen analyysin ja kulttuurisen ymmärryksen merkitys. Sosiaalisen median keskusteludata on hyvin kontekstuaalista dataa, jonka syntymiseen vaikuttaa paitsi yhteiskunta ympärillä, myös alustan teknologia ja kyseiselle alustalle muodostunut alakulttuuri. Palstoille voi esimerkiksi syntyä oma slangi ja hyvinkin erikoistunutta sanastoa. Suomen kielen käsittelijä ei välttämättä tunnista verkossa syntyviä uussanoja saatika tuttujen sanojen erikoisia käyttötapoja. Esimerkiksi keppihevonen tarkoittaa toisaalla oikeasti keppihevosta, mutta toisaalla tietynlaista poliittista diskurssia.

Lisäksi automaattisen tekstianalytiikan on osoitettu olevan hyvin kontekstiriippuvaista. Erot tulevat ilmi varsin pienissäkin muutoksissa: Yhdysvalloissa senaatin ylähuoneen puheesta koostuvalla aineistolla koulutettu luokittelualgoritmi ei enää toimikaan alahuoneen puhetta analysoitaessa [2]. Vuoden 2005 ruokapuhetta käsittelevä algoritmi ei pärjää tarpeeksi hyvin vuoden 2015 uuden kielen ja sanaston kanssa.

Myös monet teknologian tuottamat artefaktit muodostuvat hankalaksi automaattiselle analytiikalle. Esimerkiksi monella keskustelufoorumilla viestit lähetetään anonyymisti, jolloin kirjoittajana näkyy “Vierailija”. Kuin vierailija vastaa näihin vierailijan viesteihin lainaamalla niitä, syntyy ketjuja, joissa on hämmentävän monta kertaa mainittu sana vierailija. Lopputuloksena esimerkiksi ohjaamaton aihemallinnus erottaa datasta aiheen, jossa puhutaan kovasti vierailijoista. Sen todellinen olemus ei avaudu kuin esimerkkiviestejä lukemalla.

4. Fiksumpi sosiaalisen median analytiikka on vähemmän mustia laatikoita

Viimeinen ja ehkä tärkein fiksumman sosiaalisen median analytiikan väittämä liittyy analyytikan tekemiseen ja palveluiden ostamiseen. Ala rakentuu tällä hetkellä hämmentävän vahvasti erilaisten mustien laatikoiden ympärille; käytössä on teknologioita ja algoritmeja, jotka on hienosti paketoitu tekoälyksi, mutta todellisuudessa niiden takana ovat samat kontekstiin, kieleen ja validiteettiin riippuvat ongelmat kuin yllä mainituissa esimerkeissä. Monet organisaatiot mittaavat esimerkiksi Facebookista suoraan saatavaa engagement-lukua ymmärtämättä täysin, mistä siinä oikeastaan on kysymys. Analytiikkayrityksen kauppaama keskustelun sentimenttiä kuvaava hieno piirakkadiagrammi ostetaan tyytyväisenä kyseenalaistamatta analyysissa käytettyä algoritmia.

Tämä ei tarkoita, että kaikki tehty automaattinen analytiikka olisi automaattisesti virheellistä. Mutta se tarkoittaa sitä, että analytiikan tekijöiltä vaaditaan lisää avoimuutta käytettyjen menetelmien sekä niiden heikkouksien suhteen sekä sitä, että analytiikan ostajat osaavat kysyä tarkentavia kysymyksiä mustan laatikon sisuksista. Kysymys on lopulta kielenkäytöstä: samalla tavalla kuin lääkärin on osattava selventää diagnoosi potilaalle, on datatieteilijän ja analytiikkayrittäjän osattava selittää analyysin kulku kansankielellä asiakkaalleen. Lääkärivertaus on myös sikäli osuva, että sosiaalisen median keskusteludiagnostiikka on sekään harvoin eksaktia tiedettä, pikemminkin konventioita ja estimaatteja. Pelissä on aina mukana epävarmuuselementti, jonka kanssa on vain elettävä.

Tiivistettynä kolmeen ohjenuoraan: mitä on #smartersome?

  1. Älä aliarvioi ihmistulkintaa. Sille on varattava aikaa, jos aineistosta haluaa liiketoimintahyötyjä.
  2. Vietä päivä etnografina. Selvitä oman toimialasi kannalta oleellisimmat areenat ja tavat mitata keskustelua.
  3. Älä osta mustia laatikoita. Kysy ja selvennä, mitä menetelmät tekevät. Kysy niin kauan, kunnes ymmärrät.

 

**
Lähteet:

[1] Desrosières, A. (2001). How Real Are Statistics? Four Posssible Attitudes. Social Research, 68(2), 339–355.
Beer, D. (2017). Envisioning the power of data analytics. Information, Communication & Society, 21(3), 1–15.
Couldry, N. (2014). The Myth of Big Data. In Schäfer, M. T., & Van Es, K. (Eds.). The datafied society : studying culture through data. Amsterdam: Amsterdam University Press. Retrieved from http://oapen.org/search?identifier=624771
[2] Yu, B., Kaufmann, S., & Diermeier, D. (2008). Classifying Party Affiliation from Political Speech. Journal of Information Technology & Politics, 5(1), 33–48. 

Miten GDPR vaikuttaa tutkijan työhön?

Helsingin yliopistolla järjestettiin koulutus tutkijoille EU:n uudesta tietosuoja-asetuksesta GDPR:sta (General Data Protection Regulation). GDPR koskee henkilötietorekisterien keräämistä ja käsittelyä ja sen tarkoituksena on harmonisoida EU-maiden tietosuojalainsäädäntöä. Täysmittaisesti GDPR:n soveltaminen alkaa 25.5.2018. Tarkan kuvauksen GDPR:sta voi lukea esimerkiksi täältä tai täältä. Helsingin yliopiston työntekijöille koulutusmateriaali löytyy täältä.

Tutkimuksen etiikan periaatteet auttavat tutkijaa pitkälle myös uuden lain puitteissa (kts. esim. Sallan postaus verkkotutkimuksen etiikasta), mutta joitakin muutoksia nykykäytäntöihin tulee. Tässä havaintoja, jotka mielestäni vaikuttavat eniten tutkijan työhön varsinkin yhteiskuntatieteissä.

GDPR koskee henkilötietoja koskevia rekistereitä tai aineistoja, ja usein esimerkiksi kysely- tai haastatteluaineistot sisältävät henkilötietoja. Henkilötietona voidaan pitää mitä vaan tietoa, joka voidaan yhdistää johonkin luonnolliseen henkilöön. Itsestään selviä ovat nimet, sosiaaliturvatunnukset, osoitteet ja muut vastaavat tiedot, mutta myös esimerkiksi IP-osoitteet katsotaan henkilötiedoksi. Pseudonymisointi (salanimien tai numerotunnisteiden käyttö) on yleinen tapa ohittaa henkilötietojen käsittelyyn liittyviä haasteita, mutta laissa pseudonymisoitu tieto nähdään lähtökohtaisesti samoin kuin henkilötiedot paljastava, ei-pseudonymisoitu tieto. Tiedon anonymisointi onkin suositeltavaa aina kun mahdollista (henkilötiedot tai pseudonyymien lisätiedot/koodiavaimet pysyvästi poistettu).

Oma lukunsa ovat arkaluonteiset tiedot, joita ovat ainakin:

  • Rotu, etninen alkuperä
  • Poliittiset mielipiteet, äänestyskäyttäytyminen
  • Uskonnolliset tai filosofiset vakaumukset
  • Ammattiyhdistysliikkeen jäsenyys
  • Terveystiedot
  • Seksuaalinen suuntautuminen
  • Rikosrekisteri

Arkaluonteisen henkilötiedon tapauksessa tutkijan tulee laatia tietosuojaa koskeva vaikutustenarviointi (Data Processing Impact Assessment, PDIA). Lisätietoja löytyy täältä, ja varmasti kaikkien yliopistojen omilta lakimiehiltä tai tietosuojavastaavilta.

Henkilötietojen keräämisen yhteydessä pitää huomioida minimisaation periaate – kerää ainoastaan ne henkilötiedot, jotka ovat tutkimuksen kannalta välttämättömiä, ja jätä muut keräämättä. Tietoja saa käyttää ainoastaan siinä tarkoituksessa, johon lupa on annettu. Lupaa pyydettäessä tutkijan kannattaa ottaa huomioon aineistojen mahdollisen jatkokäyttö, ja pyytää myös siihen suostumus. Tieteellisen tutkimuksen tapauksessa myös laissa säädetyn tehtävän suorittaminen tai yleinen etu voivat toimia laillisina henkilötietojen keräämisen ja käsittelyn perusteina.

Nickname

Suurin muutos aiempaan henkilötietolakiin on rekisterinpitäjän osoitusvelvollisuus, eli velvollisuus kirjallisesti osoittaa GDPR:n mukaisen toiminnan ja rekisteröityjen oikeuksien täyttämisen. Riittävät toimenpiteet määritellään riskianalyysin mukaan, eikä laki suoraan määrittele, mitä nämä toimenpiteet ovat. Rekisteröityjen oikeudet ovat:

  • Saada läpinäkyvää tietoa rekisteristä
  • Päästä omiin tietoihin
  • Oikaista tietoja
  • Tulla unohdetuksi
  • Rajoittaa käsittelyä
  • Siirto-oikeus
  • Vastustamisoikeus

Tieteellinen tutkimus voi useimmissa tapauksia toimia poikkeuksena, jos tutkimuksesta on laadittu tutkimussuunnitelma, hankkeella on vastuullinen tutkija tai tutkimusryhmä ja henkilötietoja käytetään ainoastaan tutkimustarkoituksiin.

GDPR:ssä erotetaan rekisterinpitäjä ja henkilötietojen käsittelijä, joka toimii rekisterinpitäjän ohjeiden mukaisesti. Tieteellisen tutkimuksen tapauksessa rekisterinpitäjänä pidetään lähtökohtaisesti yliopistoa ja tutkijaa käsittelijänä. Tutkijoiden tulee siis noudattaa yliopiston tietosuoja- ja tietoturvasääntöjä, jotka kannattaa käydä läpi olemassa olevien henkilötietoja sisältävien aineistojen ja uusien aineistojen keräyksen osalta. Poikkeuksena on tutkimus, joka toteutetaan omalla ajalla ja rahalla, tai jos tutkija esimerkiksi omistaa aineiston itse. Tällöin väärinkäytöksistä seuraavat sanktiot voivat langeta rekisterinpitäjälle, eli yksittäiselle tutkijalle.

Viimeisenä huomiona nostan sopimuksen henkilötietojen käsittelystä (Data Processing Agreement, DPA), joka vaaditaan, kun tietojen käsittely ulkoistetaan. Koska esimerkiksi tietojen säilytys luetaan tietojen käsittelyksi, tutkijan tulee mm. ottaa huomioon, mitä pilvipalveluja työssään käyttää. Henkilötietoja sisältävät aineistot kannattaa siis aina säilyttää ensisijaisesti yliopiston palvelimella tai muuten yliopiston sisällä, eikä esimerkiksi Google Drivellä tai Dropboxissa.

Tässä siis huomioita, joita itse koulutuksesta tein. Kommentoi jos huomaat puuttuvia keskeisiä pointteja GDPR:stä tutkijan työn näkökulmasta!

Näin laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Jukka Huhtamäki & Salla-Maaria Laaksonen

Sosiaalisen median laskennallinen analytiikka perustuu piirteisiin (engl. feature). Piirteellä viitataan sosiaalisen median toimijoiden ja heidän tuottamien sisältöjensä ominaisuuksiin. Twitter-käyttäjällä on esimerkiksi tietty määrä seuraajia ja seurattavia ja twiiteissä käytetään aihetunnisteita. Valtaosa analytiikasta nojautuu tällä hetkellä helposti mitattaviin, numeerisiin ominaisuuksiin, kuten tykkäysten, retweettausten tai seuraajien määrään Twitterissä tai suorista mittauksista johdettuihin summalukuihin, kuten Facebookin engagement tai impressions.

Modernit laskennalliset keinot mahdollistavat jalostetumpaakin piirreanalyysia. Twiittien ja muiden tekstisisältöjen tunnesävyn eli sentimentin analyysi on esimerkki analytiikan keinoin tuotetusta jalostetusta piirteestä. Verkostoanalyysillä voidaan tuottaa piirteitä toimijoiden rakenteellisesta sijainnista verkostokokonaisuudessa. Vastaavasti esimerkiksi Instagram-kuvista voidaan tuottaa piirteitä — onko kuvassa henkilö, minkälainen tausta on, paistaako aurinko?

Piirteiden olennaisin hyöty on se, että ne jalostavat laadullista tietoa laskennalliseksi. Piirteiden avulla voidaan sekä tuottaa tutkittua tietoa syy-seuraussuhteista että opettaa koneoppimisen keinoin algoritmeja tunnistamaan kiinnostavia ilmiöitä. Niitä voivat olla esimerkiksi uuden trendi-ilmiön nousu, muutos asiakkaiden suhtautumisessa yritykseen tai jopa poliittinen liikehdintä. Näin isot ja abstraktit ilmiöt käytännössä rakentuvat jonkinlaisen piirteiden yhdistelmän päälle: anonyymien kirjoittajien määrä kasvaa, käytettyjen hashtagien jakauma pienenee, tai vaikkapa keskusteluissa kehittyy aiemmin tuntematon sana tai aihepiiri.

Mitä twiitistä saa irti?

Yksinkertaisimmillaan viestien analyysi keskittyy tiettyihin sanoihin ja käsitteisiin, joita voidaan palauttaa perusmuotoon ja tarkkailla esimerkiksi tietyn termin esiintymistä aineistossa ajan yli. Vielä yksinkertaisempaa on seurata esimerkiksi täsmällisesti merkittyjä hashtageja.

Mutta mitä muuta viesteistä saa irti kuin sanoja? Syvällisempi piirteisiin keskittyvä lähestymistapa on esimerkiksi tarkastella viestin sävyjä. Esimerkiksi Mike Thelwallin kehittämä SentiStrength -sentimenttianalyysikirjasto tulkitsee kirjoittajan suomenkielisen olevan sävyltään positiivinen:

sentistrenght-sallantwiitti

Presidentti Sauli Niinistön englanninkielinen twiitti saa vielä positiivisemman arvion:

sentistrenght-niinistontwiitti

Kuvan piirteiden analyysi on jo hitusen monimutkaisempaa, mutta sekin onnistuu. Microsoftin Computer Vision API tunnistaa, että Niinistön twiittaamassa kuvassa esiintyy varmasti ihmisiä, 86% todennäköisyydellä he seisovat ja 50% todennäköisyydellä poseeraavat. Tämän syvällisemmäksi menevien tulkintojen tekeminen on kuitenkin jo vaikeaa: koneen olisi melkoisen mahdotonta tulkita esimerkiksi taustalla näkyvän vartijan mahdollista silmien pyörittelyä, vaikka tällainen ironinen viesti onkin ihmistulkitsijalle melko selkeä.

niinistontwiitti

Mitä hyötyä piirteiden tunnistamisesta on?

Piirteiden tunnistamisen hyödyntämisessä on syytä erotella eri käyttötarkoitukset. Tutkimuskäytössä on usein tärkeää yksilöidä tarkasti piirteet ja todistaa niiden yhteys tutkittavaan ilmiöön tilastollisesti. Monessa käyttötarpeessa kuitenkin riittää, jos suurin osa aineistosta osuu kohdalleen tai jos automatiikalla saadaan edes pienennettyä manuaalista työtä – esimerkiksi keskustelupalstojen moderoinnissa tai asiakaspoistuma-analyysissä.

Asiakaspoistuma-analyysissä toteutuneista poistumista kerätään opetusaineisto, jossa piirteitä käytetään esimerkiksi asiakkaan brändiin liittyvien viestien tunnistamiseen ja luokittelemiseen vaikkapa tunnesävyn perusteella. Analyysin tavoitteena on, että sosiaalisen median datan perusteella saadaan esimerkiksi tunnistettua sopimuksensa pian irtisanova asiakas. Ollakseen uskottavaa, tällaisen tunnistuksenkin tulisi pohjautua mahdollisimman tarkasti todennettuun ja eri konteksteissa toistettuun yhteyteen. Ylipäänsä on hyvä muistaa ettei mikään automaattinen luokittelu pääse sadan prosentin tarkkuuteen – ei edes ihmisten tekemä.

Kentän kehittymistä hidastaakin myös koneoppimisen kontekstisidonnaisuus: esimerkiksi vihapuhetta tunnistava luokittelija osaa tunnistaa puheen vain sillä kielellä ja siinä kontekstissa, mihin se opetettu. Valtaosa koneoppimisesta onkin ohjattua koneoppimista, jossa koulutusmateriaaleina käytetään ihmisten luokittelemia esimerkkidatasettejä. Siksi opetusdatasetit ovat tekoälyajan tärkein resurssi.

Mitä tulevaisuudessa?

Koneoppiminen on elimellinen osa piirteisiin perustuvaa someanalytiikkaa. Regressioanalyysi, luokittelu ja ryvästäminen mahdollistavat analytiikan eri vaiheet kartoittavasta kuvailevaan ja ennustavasta ohjaavaan. Tällä hetkellä erityisesti konenäköön liittyvä koneoppimisen tutkimus keskittyy syväoppimiseen (katso esimerkiksi Tuomo Hiippalan palkittu tutkimus sotilasajoneuvojen tunnistamisesta sosiaalisen median kuva-aineistoista), mutta myös syväoppimiseen perustuvissa tekstiaineiston luokittelusovelluksissa on otettu merkittäviä askeleita (Kipf, 2016).

Koneoppimismallien ennustuskyky on parantunut merkittävästi, mutta mallit ovat yhä mustia laatikoita — mallin yksityiskohdat jäävät usein ainoastaan koneen tietoon tai eivät avaudu ihmistulkitsijalle. Tästä syystä onkin kiinnostavaa seurata, miten syväoppiminen ja muut edistyneet koneoppimismenetelmät saadaan parhaalla tavalla valjastettua sosiaalisen median analytiikan tueksi.

Lisälukemista:


Teksti on tuotettu DEEVA– ja SSMA-tutkimushankkeiden yhteistyössä.