methods publication

Voisiko koneoppimismalli tukea laajojen verkkokeskustelujen analyysiä?

Asynkroniset eli eriaikaisesti kehittyvät keskustelut ovat yhä merkittävämpi osa nykypäivän viestintää sosiaalisessa mediassa. Niiden laajamittaisuus tekee kuitenkin viestien analyysistä haastavaa. Uusi artikkelimme tarkastelee, miten koneoppimista voisi hyödyntää verkkokeskusteluissa esiintyvien sosiaalisten toimintojen laskennallisessa analyysissä.

Sosiaalisen median keskustelut ovat arkipäivää: erityisesti kriisitilanteissa ihmiset jakavat tietoa ja luovat käsityksiä tilanteesta sosiaalisen median keskusteluissa. Keskusteluissa pyritään myös vaikuttamaan yleisöihin ja trollaamaan. Kriisitilanteet kehittyvät usein salamannopeasti ja informaatio verkossa leviää samalla tavoin valtavan nopeasti laajoille yleisöille [9]. Näistä syistä kriisikeskustelujen laajamittainen analyysi on kiinnostavaa, mutta käytännön haasteena on usein aineistojen laajuus. 

Uudessa Northern European Journal of Language Technology -lehdessä julkaistussa tutkimuksessamme kehitimme menetelmiä suomenkielisten kriisikeskustelujen sisältämien sosiaalisten toimintojen koneoppimisavusteiseen analyysiin. Mallien tarkoituksena on tukea laajojen keskusteluaineistojen analyysiä ja auttaa ymmärtämään, miten kommentoijat positioituvat suhteessa kriisitilanteeseen ja miten he pyrkivät vaikuttamaan muihin verkkokeskusteluissa sosiaalisten toimintojen kautta (esim. kysymys, pyyntö). Tällaiset sosiaaliset toiminnot ovat tapa, jolla ihmiset koordinoivat toimintaa, ja ne myös auttavat pitämään yllä koherenttia keskustelua ja luomaan jaettua käsitystä keskustelun aiheista. 

Tutkimuksemme keskiössä on asynkroninen keskustelu, jossa osallistujat voivat jättää kommentteja ilman reaaliaikaista vuorovaikutusta. Mielenkiintomme kohteena olivat erityisesti kasvoja uhkaavat toiminnot, kuten syytökset ja haasteet, sillä ne ovat keskeisiä trollaamisessa ja disinformaation levittämisessä sekä trollaamisen tunnistamisessa [2, 7]. Nämä ovat usein kriisikeskusteluihin kohdistettuja vaikuttamisen tapoja. Esimerkiksi COVID-19-pandemiaan tai Ukrainan sotaan liittyvä harhaanjohtavan informaation leviäminen ja manipulatiivinen viestintä verkossa on herättänyt paljon keskustelua siitä, miten nettivaikuttaminen voi vaikuttaa tiedonvälitykseen ja demokraattisten yhteiskuntien toimintaan [esim. 1, 3].

Aiemmat toimintojen automaattista mallintamista kehittäneet tutkimukset ovat keskittyneet pääasiassa synkronisiin eli reaaliaikaisiin keskusteluihin, kun taas asynkroniset vuorovaikutustilanteet ovat jääneet vähemmälle huomiolle. Kehittämämme annotointikehys tarjoaa uudenlaisen lähestymistavan, joka mahdollistaa niin sanottujen kasvoja uhkaavien (esim. syytös, haaste) ja parillisten (esim. kysymys-vastaus) toimintojen automaattisen tunnistamisen. Kasvoja uhkaavia toimintoja ei ole juurikaan sisällytetty aiempiin sosiaalisia toimintoja luokitteleviin malleihin. Lähestymistapamme ammentaa keskusteluanalyysistä, luonnollisen kielen käsittelystä (NLP) ja koneoppimisesta. 

Koneoppimismallien käyttö toimintojen analyysissä on kuitenkin herättänyt ristiriitaisia mielipiteitä. Tutkijat ovat erimielisiä esimerkiksi mallien yleistettävyydestä ja toimintojen tarkastelun vaatimasta analyyttisestä syvyydestä [5]. Toiset näkevät keskustelunanalyysin suotuisana maaperänä laskennalliselle mallintamiselle, koska sen alalla on kiinnitetty huomiota vuorovaikutuksen yleistettäviin piirteisiin ja niiden jakaumiin [8]. Sosiaalisiin toimintoihin liittyy kuitenkin usein monitulkintaisuutta, mikä on haaste koneoppimismalleille [6]. Tämän vuoksi halusimme tarkastella, kuinka mallit voisivat paremmin tavoittaa toiminnoille tyypillistä monitulkintaisuutta. 

Kriisiuutisiin liittyvät foorumikeskustelut voivat sisältää usein hyvinkin monimutkaisia ja monitulkintaisia viestejä. Siksi hyödynsimme ihmisannotaattoreiden erimielisyyksiä mallien kehityksessä. Näin mallit voivat paremmin heijastella sitä monitulkintaisuutta, jota ihmisannotoijat näkevät kommenteissa: ne ennustavat useita mahdollisia tulkintoja kunkin kommentin sisältämästä toiminnosta. Havaintomme mukaan kasvoja uhkaavat toiminnot voivat erityisen usein ilmetä epäsuorasti tai monitulkintaisesti, mikä on linjassa klassisen kohteliaisuusteoreettisen tutkimuksen kanssa [4].

Kommentit sisältävät myös usein useampia toimintoja. Havaintojemme mukaan paras tapa ennustaa useampia toimintoja ja useita mahdollisia tulkintoja on hyödyntää useamman luokittelijan joukkoa, joista kukin perustuu eri annotaattorin annotaatioihin. Mallit pärjäävät tehtävässä suhteellisen hyvin. Joidenkin toimintojen osalta ne ovat hyvinkin tarkkoja (esim. kysymys), kun taas toiset ovat vaikeampia tunnistaa (esim. kielto).

Verkkokeskustelut ovat täynnä monimutkaisia vuorovaikutustilanteita, joiden rakenteen analyysi toimintojen kautta voi auttaa erittelemään keskustelun kehittymistä ja miten ihmiset pyrkivät vaikuttamaan muiden mielipiteisiin. Kehittämämme mallit voivat toivottavasti avata uusia mahdollisuuksia verkkokeskustelujen tietokoneavusteiselle analyysille, erityisesti laajojen verkkoaineistojen tarkastelussa. Mahdollisia sovelluskohteita voisivat ovat esimerkiksi keskustelujen toiminnollisen rakenteen analyysi: miten tiettyihin toimintoihin vastataan yleensä kriisikeskusteluissa, tai ovatko jotkin toiminnot yleisempiä tietyssä vaiheessa keskustelua? Toimintomallien tukemana voisi myös tarkastella, mitä keskustelijat tekevät eri tyyppisissä kriisikeskusteluissa – esimerkiksi ovatko viranomaisiin, poliitikkoihin tai muihin keskustelijoihin kohdistuvat syytökset joissakin keskusteluissa yleisempiä kuin toisissa.

Blogikirjoitus perustuu tähän artikkeliin:

Paakki, H., Toivanen, P., & Kajava K. (2025). Implicit and Indirect: Detecting Face-threatening and Paired Actions in Asynchronous Online Conversations. Northern European Journal of Language Technology (NEJLT), 11(1), pp. 58–83. https://doi.org/10.3384/nejlt.2000-1533.2025.5980

Leave a comment