Näin laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Jukka Huhtamäki & Salla-Maaria Laaksonen

Sosiaalisen median laskennallinen analytiikka perustuu piirteisiin (engl. feature). Piirteellä viitataan sosiaalisen median toimijoiden ja heidän tuottamien sisältöjensä ominaisuuksiin. Twitter-käyttäjällä on esimerkiksi tietty määrä seuraajia ja seurattavia ja twiiteissä käytetään aihetunnisteita. Valtaosa analytiikasta nojautuu tällä hetkellä helposti mitattaviin, numeerisiin ominaisuuksiin, kuten tykkäysten, retweettausten tai seuraajien määrään Twitterissä tai suorista mittauksista johdettuihin summalukuihin, kuten Facebookin engagement tai impressions.

Modernit laskennalliset keinot mahdollistavat jalostetumpaakin piirreanalyysia. Twiittien ja muiden tekstisisältöjen tunnesävyn eli sentimentin analyysi on esimerkki analytiikan keinoin tuotetusta jalostetusta piirteestä. Verkostoanalyysillä voidaan tuottaa piirteitä toimijoiden rakenteellisesta sijainnista verkostokokonaisuudessa. Vastaavasti esimerkiksi Instagram-kuvista voidaan tuottaa piirteitä — onko kuvassa henkilö, minkälainen tausta on, paistaako aurinko?

Piirteiden olennaisin hyöty on se, että ne jalostavat laadullista tietoa laskennalliseksi. Piirteiden avulla voidaan sekä tuottaa tutkittua tietoa syy-seuraussuhteista että opettaa koneoppimisen keinoin algoritmeja tunnistamaan kiinnostavia ilmiöitä. Niitä voivat olla esimerkiksi uuden trendi-ilmiön nousu, muutos asiakkaiden suhtautumisessa yritykseen tai jopa poliittinen liikehdintä. Näin isot ja abstraktit ilmiöt käytännössä rakentuvat jonkinlaisen piirteiden yhdistelmän päälle: anonyymien kirjoittajien määrä kasvaa, käytettyjen hashtagien jakauma pienenee, tai vaikkapa keskusteluissa kehittyy aiemmin tuntematon sana tai aihepiiri.

Mitä twiitistä saa irti?

Yksinkertaisimmillaan viestien analyysi keskittyy tiettyihin sanoihin ja käsitteisiin, joita voidaan palauttaa perusmuotoon ja tarkkailla esimerkiksi tietyn termin esiintymistä aineistossa ajan yli. Vielä yksinkertaisempaa on seurata esimerkiksi täsmällisesti merkittyjä hashtageja.

Mutta mitä muuta viesteistä saa irti kuin sanoja? Syvällisempi piirteisiin keskittyvä lähestymistapa on esimerkiksi tarkastella viestin sävyjä. Esimerkiksi Mike Thelwallin kehittämä SentiStrength -sentimenttianalyysikirjasto tulkitsee kirjoittajan suomenkielisen olevan sävyltään positiivinen:

sentistrenght-sallantwiitti

Presidentti Sauli Niinistön englanninkielinen twiitti saa vielä positiivisemman arvion:

sentistrenght-niinistontwiitti

Kuvan piirteiden analyysi on jo hitusen monimutkaisempaa, mutta sekin onnistuu. Microsoftin Computer Vision API tunnistaa, että Niinistön twiittaamassa kuvassa esiintyy varmasti ihmisiä, 86% todennäköisyydellä he seisovat ja 50% todennäköisyydellä poseeraavat. Tämän syvällisemmäksi menevien tulkintojen tekeminen on kuitenkin jo vaikeaa: koneen olisi melkoisen mahdotonta tulkita esimerkiksi taustalla näkyvän vartijan mahdollista silmien pyörittelyä, vaikka tällainen ironinen viesti onkin ihmistulkitsijalle melko selkeä.

niinistontwiitti

Mitä hyötyä piirteiden tunnistamisesta on?

Piirteiden tunnistamisen hyödyntämisessä on syytä erotella eri käyttötarkoitukset. Tutkimuskäytössä on usein tärkeää yksilöidä tarkasti piirteet ja todistaa niiden yhteys tutkittavaan ilmiöön tilastollisesti. Monessa käyttötarpeessa kuitenkin riittää, jos suurin osa aineistosta osuu kohdalleen tai jos automatiikalla saadaan edes pienennettyä manuaalista työtä – esimerkiksi keskustelupalstojen moderoinnissa tai asiakaspoistuma-analyysissä.

Asiakaspoistuma-analyysissä toteutuneista poistumista kerätään opetusaineisto, jossa piirteitä käytetään esimerkiksi asiakkaan brändiin liittyvien viestien tunnistamiseen ja luokittelemiseen vaikkapa tunnesävyn perusteella. Analyysin tavoitteena on, että sosiaalisen median datan perusteella saadaan esimerkiksi tunnistettua sopimuksensa pian irtisanova asiakas. Ollakseen uskottavaa, tällaisen tunnistuksenkin tulisi pohjautua mahdollisimman tarkasti todennettuun ja eri konteksteissa toistettuun yhteyteen. Ylipäänsä on hyvä muistaa ettei mikään automaattinen luokittelu pääse sadan prosentin tarkkuuteen – ei edes ihmisten tekemä.

Kentän kehittymistä hidastaakin myös koneoppimisen kontekstisidonnaisuus: esimerkiksi vihapuhetta tunnistava luokittelija osaa tunnistaa puheen vain sillä kielellä ja siinä kontekstissa, mihin se opetettu. Valtaosa koneoppimisesta onkin ohjattua koneoppimista, jossa koulutusmateriaaleina käytetään ihmisten luokittelemia esimerkkidatasettejä. Siksi opetusdatasetit ovat tekoälyajan tärkein resurssi.

Mitä tulevaisuudessa?

Koneoppiminen on elimellinen osa piirteisiin perustuvaa someanalytiikkaa. Regressioanalyysi, luokittelu ja ryvästäminen mahdollistavat analytiikan eri vaiheet kartoittavasta kuvailevaan ja ennustavasta ohjaavaan. Tällä hetkellä erityisesti konenäköön liittyvä koneoppimisen tutkimus keskittyy syväoppimiseen (katso esimerkiksi Tuomo Hiippalan palkittu tutkimus sotilasajoneuvojen tunnistamisesta sosiaalisen median kuva-aineistoista), mutta myös syväoppimiseen perustuvissa tekstiaineiston luokittelusovelluksissa on otettu merkittäviä askeleita (Kipf, 2016).

Koneoppimismallien ennustuskyky on parantunut merkittävästi, mutta mallit ovat yhä mustia laatikoita — mallin yksityiskohdat jäävät usein ainoastaan koneen tietoon tai eivät avaudu ihmistulkitsijalle. Tästä syystä onkin kiinnostavaa seurata, miten syväoppiminen ja muut edistyneet koneoppimismenetelmät saadaan parhaalla tavalla valjastettua sosiaalisen median analytiikan tueksi.

Lisälukemista:


Teksti on tuotettu DEEVA– ja SSMA-tutkimushankkeiden yhteistyössä.

Algoritminen julkisuus on vinoutunutta kyborgijulkisuutta

2453788025_fd51aeb4d9_z
(cc) runran @Flickr

Teknologia nähdään helposti neutraalina tiedonvälittäjänä. Moni viestinnän ammattilainen ei tiedä, miten teknologia toimii tai miten sen kanssa pitäisi toimia. Meidän pitäisi kuitenkin olla yhä tietoisempia siitä, miten esimerkiksi algoritmit meitä  tulevaisuudessakin ohjaavat.

“Software is, in other words, a part of a ‘technological unconscious’ (Clough, 2000), a means of sustaining presence which we cannot access but which clearly has effects, a technical substrate of unconscious meaning and activity.” (Thrift, 2005)

Maantieteilijä-sosiologi Sir Nigel Trift on käyttänyt teknologisen tiedostamattoman käsittettä kuvaamaan teknologian ja ohjelmistojen vaikutusta eräänlaisena sosiaalisen elämän kehikkona, joka tiedostomattomasti vaikuttaa toimintaamme.

Viestinnän ja julkisuuden näkökulmasta teknologisen tiedostamattoman käsite kuvaa kahta asiaa: Ensinnäkin niitä informaatioteknologian tuntemattomia ominaisuuksia ja tapoja, jotka muokkaavat arkea ja erityisesti media-arkeamme, mutta joista emme useinkaan ole kovin tietoisia. Toisaalta käsite muistuttaa siitä, että monella viestinnän ammattilaisella ei ole tarpeeksi tietoa siitä miten teknologia lopulta toimii tai miten sen kanssa pitäisi toimia.

Teknologinen tiedostamaton määrittelee monella tapaa sitä, miten julkisuus muotoutuu. Keskeisin tämän hetken julkisuuden rakennuspalikka on newsfeed, uutisvirta, joka eri palveluissa jäsentää verkon sisältöjä pyrkien maksimoimaan huomion ja palvelussa vietetyn ajan. Käytännössä tämä tapahtuu erilaisten algoritmien avulla: pienet tietokoneohjelmat tai laskukaavat ohjaavat sisällön esittämistä aiempaan käyttäytymiseemme perustuen.

Huolestuttavaa on, että teknologia nähdään neutraalina tiedonvälittäjänä. Vuoden 2017 Edelman Trust Barometerissä vastaajat arvioivat hakukoneet kaikkein luotettavimmaksi tiedonlähteeksi. Perinteisen median luottamus puolestaan on romahtanut. Teknologia vaikuttaa puolueettomalta ja virheettömältä toimijalta samalla kun perinteinen media nähdään eliitin käsikassarana.

Algoritmit ovat kuitenkin tasan yhtä hyviä kuin mekin. Ihmisten toimintatavat, vinoumat ja virhekäsitykset siirtyvät suoraan niihin joko ohjelmoinnin tai koneoppimisen kautta. Hakukone suoltaa sisältöä, josta se arvelee etsijän pitävän aiemman verkkokäyttäytymisen perusteella. Teknologia tuottaa kaikukammioita, koska ihmiset ovat sosiaalisessa toiminnassa tyypillisesti mieluten oman viiteryhmänsä kanssa. Työnhakualgoritmi syrjii tummaihoisia. Microsoftin tekoälybotti jouduttiin ottamaan pois linjoilta, kun se oppi päivässä suoltamaan rasistista vihapuhetta Twitterin elämänkoulussa.

Sisältöjen kohdentamisessa ja teknologiajättien bisnesmallina vinotkin algoritmit kuitenkin toimivat hyvin. Facebook tahkoaa rahaa 6,4 miljardin dollarin liikevaihdolla. Käyttäjämäärät suosituissa sosiaalisen median palveluissa jatkavat kasvuaan, ja alustat tuottavat uusia toimintamuotoja, joilla pyritään maksimoimaan niissä vietetty aika. Julkisuuden ja demokratian kannalta kuitenkin ongelmallista on, että algoritmi ei osaa tehdä eroa eri sisältöjen välillä. Se tarjoilee samalla logiikalla kenkiä, lääkkeitä ja politiikkaa. Syyskuussa 2017 Facebookissa pystyi esimerkiksi kohdentamaan mainoksia suoraan juutalaisvihaajille.

Rahalla siis saa. Bisneslogiikan nimissä samaan aikaan mediayhtiöt ovat huomanneet, että Facebookin algoritmi näyttää entistä vähemmän mediatalojen postauksia niiden seuraajille. Sen sijaan se painottaa sosiaalisuutta ja engagementtia: newsfeedissä näkyy todennäköisimmin sisältöjä, joita kaverisi ovat jakaneet, tykänneet tai kommentoineet. Faktoilla ei tässä pelissä ole arvoa. Sen sijaan tunteilla ja epärehellisyydellä on.

Tämä logiikka on voimalain logiikkaa (Matthew effect). Mikä tahansa tahmainen, ihastuttava tai vihastuttava sisältö päätyy todennäköisemmin näytetyksi, ja sisällön suosio kasvaa entisestään. Siksi julkisuudestamme muodostuu väistämättä tunnejulkisuus, joka etenee kohusta toiseen. Teknologinen tiedostamaton on siis lopulta hybridiä ihmisyyttä, julkisuuden muodostumista kyborgitoimijoiden kautta.

Viestinnän ammattilaisen näkökulmasta huolestuttavaa on se, että teknologian edistämä logiikka hiipii myös niihin tapoihin, joilla viestintää tehdään ja mittareihin, joilla sitä mitataan. Klikkien tuijottamisesta on kenties päästy piirun verran eteenpäin, mutta nyt uusi mittari, jota kaikki maanisesti tuijottavat on sisällön aikaansaama sitoutuminen, engagament.

Se on muuten Facebookin kaupallista menestymistä varten tehty mittari.

Mitäpä jos pakasta napatun mittarin sijasta viestinnän ammattilaiset itse rohkeasti määrittelisivät, mitä on hyvä viestintä, mitä on vaikuttavuus ja miten sitä halutaan mitata?

– –
Salla-Maaria Laaksonen (VTT) on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.

Blogikirjoitus on rinnakkaispostaus Viesti ry:n blogista. ja perustuu HY+:n ja Viesti ry:n Viestinnän tulevaisuus -tilaisuudessa 26.9.2017 pidettyyn puheenvuoroon.

Smarter Social Media Analytics Underhoodilla

IMG_20170403_161015Vietimme viikon 3.-7.4. SSMA-projektin tutkijaporukkalla startupyritys Hupparihörhön luona. Kenttätyöviikon tarkoituksena oli tutustua Hupparihörhön kehittämään Underhood-palveluun, joka mittaa yritysten mainetta sosiaalisen median dataan perustuen.

Underhood on ollut lähikuukausina uutisissa toteutettuaan Aamulehden kanssa kuntavaalitulosta Tampereella ennustavan mainemittarin. SSMA-projektin puolesta olemme kiinnostuneita tutkimaan, miten sosiaalisen median datalla voidaan mitata ja ennustaa yhteiskunnallisia ilmiöitä. Viikko Underhoodilla kuntavaalien alla tarjosi erinomaisen mahdollisuuden seurata konkreettisen tapauksen ennustamista somedatasta perehtyen samalla Underhoodilaisten näkemyksiin data-analytiikan mahdollisuuksista.

Alkuviikon aikana tutustuimme Underhoodin somedatasta yrityksille laskemaan mainepisteytykseen, joka perustuu kolmelle eri mittarinarvolle. Ensinnäkin Underhood seuraa yritysten näkyvyyttä, joka lasketaan yrityksen Facebook-sivun saamien tykkäysten ja Twitter-seuraajien määristä sekä Facebookin antamasta buzz-arvosta. Toiseksi Underhood mittaa yritysten dialogia someyleisön kanssa, joka määrittyy yrityksen keskimääräisen julkaisumäärän ja julkaisujen saamien kommenttien, tykkäysten sekä jakojen perusteella. Lisäksi dialogimittarin arvoon vaikuttaa yrityksen vastausaste saamiinsa kommentteihin. Kolmanneksi mainepisteytykseen vaikuttavat yrityksen ja yleisön käyttämien sanojen samanlaisuus ja sentimenttianalyysilla saatu yleisön kommenttien sävy. Näkyvyyttä, dialogia ja samanlaisuutta mittaavat pisteet skaalataan Underhoodissa asteikolle 0-10. Näiden pisteiden keskiarvosta lasketaan sitten varsinainen mainepisteytys, jonka arvo on myös asteikolla 0-10.

Underhood-pisteytyksen ja sen tekijöiden tarkastelussa meitä kiinnostaviksi kysymyksiksi nousivat eri mittareiden väliset suhteet ja mittauskohteet: mitä oikeastaan mitataan, kun kerätään dataa esimerkiksi yritysten ja Facebook-tykkääjien yhteisesti käyttämien sanojen määristä? Millä perustein voisimme ajatella, että somedatan pohjalta määritetyt mittarit olisivat luotettava ennustaja ilmiöille, joita koskeva uutisointi ja keskustelu eivät rajoitu sosiaaliseen mediaan?

Underhood-pisteytys on aikaisemmin ennustanut oikein esimerkiksi semifinalistien valinnan Ison-Britannian X-Factor -ohjelmassa, mutta kilpailun voittajan ennuste sen sijaan oli väärä. Yksi selitys tälle on, että ennusteen sotki kansainvälisen sosiaalisen median osoittama kiinnostus: X-Factor UK:ssa äänestäminen oli mahdollista ainoastaan Isossa-Britanniassa, mutta Underhood-pisteytys heijasteli finalistien suosiota kansainvälisellä tasolla. Tämä on esimerkki tapauksesta, jossa sosiaalisen median dataan perustuvat mittarit mittaavat ennusteen kohteesta (pärjääminen Ison-Britannian X-Factorissa) erillistä ilmiötä (suosio kansainvälisessä sosiaalisessa mediassa).

Saimme käyttöömme Underhoodin pisteytyksen perustana olevan datan, joka sisälsi eri mittareiden arvot ja näihin vaikuttavat tekijät päiväkohtaisesti tallennettuina elokuulta 2016 alkaen (dataa yhteensä 3958 yritykseltä ja poliitikolta). Viikon aikana tutkimme datan eri muuttujien riippuvuutta toisistaan ja vertasimme eri mittarinarvojen muutosta muun muassa yritysten toimialan ja liikevaihdon suhteen. Kiinnostavasti havaitsimme, että yritysten ja someyleisön kielenkäytön keskinäinen samanlaisuus korreloi yritysten julkaisujen saaman kommenttimäärän kanssa. Tämä viittaisi siihen, että samanlaisuusmittari saattaa kuvata käytetyn kielen yhteneväisyyden lisäksi myös keskustelun volyymia sosiaalisessa mediassa.

Eri sosiaalisen median dataan perustuvien mittareiden välinen “työnjako” vaikuttaisi olevan yksi merkittävä tekijä ilmiöiden ennusteiden arvioissa. Ennusteen luotettavuuden arvioinnissa on tärkeää tietää, mitä ilmiön puolia eri mittarit mittaavat. Erillisiä mittareita käytettäessä olisi hyvä varmistua, että ilmiön eri puolia mittaavat pisteytykset eivät riipu keskenään samoista tekijöistä, kuten esimerkiksi keskustelun aktiivisuudesta. Näin mittareiden keskinäisen tärkeyden tai painotuksen arviointi selkeytyy ennustetta muodostaessa.

Underhoodin mittareiden keskinäiset painotukset ovat viime päivinä nousseet esille myös Aamulehden mainemittarin antamien kuntavaaliennusteiden yhteydessä. Mittarin ennusteet eivät lopulta vastanneet kuntavaalitulosta Tampereella. Aamulehdessä tämän arvioitiin johtuvan ehdokkaiden suuresta määrästä ja suhteellisesta vaalitavasta, jotka vaikeuttivat mainemittarin antamien lukujen tulkintaa. Underhoodin mukaan mittari taas olisi antanut tarkemman tuloksen, jos Facebook-tykkääjien määrää olisi painotettu nykyistä enemmän.

Keskeisellä sijalla tässäkin tapauksessa on kysymys: minkä ehtojen vallitessa voimme pitää sosiaalisen median suosiota luotettavana ennustajana vaalitulokselle? Underhoodin mainemittarin antamat ennusteet eri ilmiöistä – olivat ne sitten onnistuneita tai eivät – tuottavatkin hyödyllistä aineistoa, jonka avulla tätä ongelmaa voidaan tutkia.

Hajaantukaa – täällä ei ole mitään nähtävää – algoritmikeskustelusta Suomessa (osa 1)

Screenshot 2017-03-15 11.42.35Algoritmit ovat kuuma aihe paitsi julkisessa keskustelussa, myös kansainvälisessä yhteiskuntatieteellisessä kirjallisuudessa. Pelkästään viime vuoden aikana julkaistiin ainakin kolme erikoisnumeroa, missä käsiteltiin algoritmeja ja niiden roolia yhteiskunnassa. Niin akateemisessa keskustelussa, kuin populaareissakin teksteissä on aistittavissa tietynlainen algoritmien musta magia. Algoritmit eivät ole mitään taikaotuksia jotka hallitsevat maailmaa. Algoritmi on Wikipedian ensimmäisen lauseen mukaan

yksityiskohtainen kuvaus tai ohje siitä, miten tehtävä tai prosessi suoritetaan; jota seuraamalla voidaan ratkaista tietty ongelma.

Maailma on siis täynnä digitaalisia ja vähemmän digitaalisia algoritmeja. Silti pääpaino tuntuu olevan digitaalisissa ympäristössä, kuten Kari Haakanan suomenkielisessä pohdinnassa, vaikka siinä taitavasti tuodaan yhteen jopa klassista teknologian tutkimuksen argumenttejä. On totta, että digitaalisuus todella muuttaa monia ympäröiviä tapahtumia ja algoritmit ovat digitaalisuudessa  keskeisessä roolissa. Vastaavia yksityiskohtaisia kuvauksia ja ohjeita ongelman ratkaisuun on kuitenkin  aina ollut olemassa.

Esimerkiksi Kelan viimeaikainen toimeentulotukisotku monine muotoineen herättää varsin paljon kysymyksiä toimeentulotuen laskennassa käytetystä algoritmista. En tiedä onko taustalla tietojärjestelmän sotkut vai muuten prosessisuo, mutta julkisuuteen nostetut esimerkit – kuten tarve myöntää henkilölle sentin toimeentulotuki maksusitoumusten saamiseksi eteenpäin  – kertovat, että ”algoritmi” ei nyt oikeastaan toimi erityisen järkevästi. Ehkä tässä tullaan keskeiseen huomioon, jota jo Jansson & Erlinngsson (2014) havaitsivat jo aiemmasta tutkimuksesta: haasteena digitaalisissa (sekä ei-digitaalisissa) algoritmeissa on sääntöjen joustamattomuus – usein todellinen maailma ei sopeudu tiukkaan algoritmin ajattelemaan muotoon.

Tässä kohtaa ehkä voi huokaista helpotuksesta, algoritmit ovat kuin todella tarkkoja byrokraatteja. Mutta missä sitten piilee digitalisaation suuri mullistus? Miksi algoritmit ovat niin tapetilla yhteiskuntatieteellisessä kirjallisuudessa ja miksi niistä vouhkotaan (juuri nyt) niin paljon?

On toki totta, että digitaalisten palveluiden myötä me kaikki altistumme mahdollisesti uudenlaiselle, näkymättömälle byrokratialle ja vallankäytölle. Uutta ehkä on, että nyt päätöksentekijänä voi olla joku kasvottomalta näyttävä järjestelmä (noh, en tiedä onko se Kela yhtään parempi esimerkki kasvollisesta järjestelmästä). Mutta, kuten useimmiten, kaiken takaa löytyy kuitenkin ihminen. Algoritmi on aina ihmistoimijoiden tuottama väline, joka toteuttaa ihmistoimijoiden suunnitteleman prosessin. Teknologia-alan demografian perusteella tuo ihmistoiija on melko varmasti valkoinen mies, vaikkei tosin keski-ikäinen. Ja tässä nyt ei ole mitään uutta taivaan alla, valitettavasti. Jyllääväthän valkoiset (keski-ikäiset) miehet monessa muussakin yhteiskunnan päätöksenteon koneessa.

Yhteiskuntatieteellinen mielenkiinto algoritmeihin selittyy niiden tuoreudella. Kyseessä on konkreettinen uusi ”esine”, jota mätkiä tutkimusmenetelmillä ja ajatuksilla. Ja tuoreet aiheet usein herättävät tutkijoiden mielenkiintoa, koska ne ovat uusia ja tuoreita. Toki on tutkimukselle myös tarvetta. Kuten Kitchin (2017) huomauttaa, kriittistä tutkimusta algoritmeista on vähän – varsinkin verrattuna kaikkeen muuhun algoritmitutkimukseen esimerkiksi tietojenkäsittelytieteessä ja insinööritieteissä. Pohdinkin siis,

  • Miten julkisessa keskustelussa käytetään sanaa algoritmi ja mitä sillä oikeastaan tarkoitetaan?
  • Miten perinteiset vallankäytön muodot soveltuvat algoritmien kritisoimsieen ja mitä uutta algoritmit tuovat esimerkiksi perinteiseen byrokratian ajatukseen?
  • Voisimmeko silti koettaa olla nostamasta algoritmia kultaiselle jalustalle ja sen sijaan purkaa mitä oikeastaan tarkoitamme sillä?

Postailen kevään aikana enemmän ajatuksiamme tästä aiheesta ja käsittelemme tematiikkaa myös meetupeissamme.

Smarter Social Media Analytics -hanke starttaa joulukuussa

4601859272_4228421089_z
Kuva: Matt Wynn

Saimme viime viikolla virallisesti tiedon, että Tekes rahoittaa projektiamme Smarter Social Media Analytics, jossa yhdessä yrityskumppaneiden kanssa lähemme nimen mukaisesti rakentamaan fiksumpaa sosiaalisen median analytiikkaa – tavoitteena tutkia ja kehittää uusia menetelmiä trendien ja ilmiöiden tunnistamiseen laskennallisesti sosiaalisen median tekstimassoista.

Hankkeen toteuttavat Kuluttajatutkimuskeskus KTK (HY) ja Tietotekniikan tutkimuslaitos HIIT (HY), ja rajapintalaisista mukana projektissa virallisesti ainakin Salla, Matti ja Arto. Alla hankkeen tiivis kuvaus tutkimussuunnitelmasta. Huraa!

**

Sosiaalisessa mediassa vahvistetaan ja rakennetaan yrityksiin, organisaatioihin ja brändeihin liittyviä käsityksiä ja jaetaan niihin liittyviä kokemuksia. Digitaalinen mediaympäristö tarjoaa mahdollisuuden seurata ja tutkia eri toimijoihin kohdistuvia arvioita, arvosteluja, kokemuksia ja tuntemuksia laskennallisesti. Tässä hankkeessa rakennamme isojen verkkoaineistojen avulla menetelmiä keskusteluissa syntyvien ilmiöiden ja trendien automaattiseen, reaaliaikaiseen tunnistamiseen.

Käytössämme ovat satojen miljoonien viestien laajuiset sosiaalisen median aineistot: Suomi24-verkkoyhteisön koko keskusteluaineisto, Futusome Oy:n keräämä satojen miljoonien viestien kokoinen aineisto suomenkielistä sisältöä eri sosiaalisen median palveluista. Näiden lisäksi hyödynnämme Taloustutkimus Oy:n keräämiä edustavia kyselytutkimusaineistoja ja isoja media-arkistoja. Näitä aineistoja rinnastamalla pystymme rakentamaan ja validoimaan algoritmeja, joiden avulla nousevia trendejä ja ilmiöitä on mahdollista koneoppimisen avulla tunnistaa verkkokeskusteluista. Laskennallisen data-analyysin ja sitä tukevan laadullisen analyysin ohella hankkeessa kerätään laadullista havainnointi- ja haastatteluaineistoa toimintatutkimuksellista näkökulmaa käyttäen.

Tutkimuskokonaisuus limittyy osaksi sekä laskennallisen yhteiskuntatieteen kehittymistä Suomessa että sosiaalisen mediaa hyödyntävien yritysten (ns. asiakasyritykset) diagnostisten valmiuksien parantamiseen tähtäävää valmentamista. Tutkimuksellinen näkökulma varmistaa myös analytiikan sikäli viisaamman kehittämisen, että analytiikka huomioi sosiaalisen median aineistojen käyttöön liittyvät eettiset ja taloudelliset näkökulmat myös tavallisten käyttäjien näkökulmasta.

Helsingin yliopiston Kuluttajatutkimuskeskuksen ja Tietotekniikan tutkimuslaitos HIIT:in yhteistyötahoina hankkeen valmistelussa ovat olleet Aller Media Oy, Taloustutkimus Oy ja Futusome Oy (ns. analytiikka- ja aineistoyritykset jotka osallistuvat hankkeeseen työpanoksellaan ja aineistoilla). Lisäksi konsortiossa mukana ovat pienemmät kasvuvaiheen analytiikkayritykset (Underhood.co, Sometrik, Leiki, Arvo Partners, myös Futusome), jotka osallistuvat hankkeeseen työpanoksellaan ja luovuttamalla tutkimusaineistoja tutkijoiden käyttöön, sekä isommat asiakasyritykset (Atria Suomi Oyj, Ilmarinen Keskinäinen Vakuutusyhtiö Oy, SOK, TeliaSonera Oyj, myös Aller ja Taloustutkimus), jotka osallistuvat hankkeeseen rahapanoksella.

Trump ja sosiaalisen median analytiikka

screen-shot-2016-11-14-at-17-34-50
Screenshot from Tagboard.

Yhdysvaltain presidentinvaalit ja sosiaalisen median osuus niissä ovat herättäneet viime päivinä paljon keskustelua. Debatti kiteytyy kahden teeman ympärille. Ensinnäkin, mitä sosiaalisen median kuplautumisesta kertoo se, että Donald Trumpin voitto tuli monelle yllätyksenä. Toisekseen, olisiko Trumpin voiton voinut ennustaa sosiaalista mediaa seuraamalla?

Avaan tässä postauksessa jälkimmäistä kysymystä eli sosiaalisen median roolia ja analytiikkaa vaalivoiton ennustuksessa. YLE julkaisi tästä vastikään jutun, jossa oli hyödynnetty Ezyinsightsin analytiikkaa, ja johon itsekin kommentoin. Puhuin samasta tematiikasta myös viime maaliskuussa valtiotieteellisessä tiedekunnassa järjestetyssä USA:n vaalit -luentosarjassa sekä Helsingin Sanomien toimittajan kanssa myöhemmin toukokuussa.

Jo maaliskuussa oli selvää, että millä tahansa sosiaalisen median mittarilla Trump on vaalien voittaja – vaikka silloin mukana kisassa olivat vielä kaikki esivaaliehdokkaat. Kuten Ezyinsightsin analytiikka osoittaa, sama näkyi monella mittarilla myös vaalisyksynä.

Sosiaalisen median analytiikan ongelma on kuitenkin se, että se antaa helposti kivoja numeroita, joiden päälle voi perustaa väittämiä. Tämä pätee erityisesti palveluiden kuten Facebookin itsensä antamiin tietoihin.

Facebook mittaa viesteihin “sitoutumista” (engagement, termi ei oikein käänny kunnolla suomeksi), joka on käytännössä kaikkien sen viestin aiheuttamien reaktioiden (kommentit, tykkäykset, jaot) yhteissumma. Twitter puolestaan kertoo impressions-luvun, joka mittaa twiitin potentiaalisesti nähneiden silmäparien määrää.

Molemmat ovat ongelmallisia mittareina. Twitterin impressioluku kertoo suurimman mahdollisen yleisön määrän twiitin saamilla reaktioilla, mutta ei mitään todellisista lukijoista. Facebookin “sitoutuminen” puolestaan on jonkinlainen kiinnostuksen mittari, mutta lopulta vain numero, jolla ei ole mitään laadullista sisältöä.

Puhtaan määrällisistä mittareista on kuitenkaan vaikea sanoa mitään yleisöjen suhteen tai kiinnostuksen laadusta. Todennäköisesti monet ovat seuranneet Trumpia myös mielenkiinnosta tai kauhistuksesta – hän on ollut melkoinen mediailmiö viimeisen ainakin vuoden ajan sekä perinteisessä että sosiaalisessa mediassa. Moni on varmasti seurannut ja jakanut Trumpin tekemisiä myös kauhistellakseen hänen lausuntojaan.

Emme siis voi lukujen perusteella sanoa mitään niistä tulkinnoista tai syistä, miksi ihmiset tiettyä videota tai päivitystä katsovat ja klikkaavat.

Juuri tästä syystä menestystä sosiaalisessa mediassa on aika vaikea määritellä. Seuraajia ja tykkääjiä on, mutta heidän motiiveistaan emme tiedä mitään. Toimijan näkyvyyteen jokainen kriittinenkin klikki kuitenkin väistämättä vaikuttaa, sillä sosiaalisen median julkisuus suosii suositumpaa ja nostaa reaktioita herättäneitä viestejä ja uutisia ihmisten uutisvirtoihin.

Ongelmallista on myös se, että mikään sosiaalisen median alusta ei ole edustava otos väestöstä. Varsinkaan jollakin alustalla aktiivisesti toimivien otos ei ole edustava, vaan vinoutunut vähintäänkin poliittisen kiinnostuksen tai teknologisten taitojen perusteella. Esimerkiksi Yhdysvalloissa Facebookia käyttää 68% aikuisväestöstä, mutta valtaosa heistä on todennäköisesti epäaktiivisia.

Tutkimuksissa sosiaalisen median metriikoiden ja äänestystulosten välistä yhteyttä ei olla saatu luotettavasti osoitettua. Tulevaisuudessa tilanne saattaa parantua erilaisten tekstinlouhinnan menetelmien (esim. sentimenttianalyysi) yleistyessä ja arkipäiväistyessä.

Sitä odotellessa vaikuttaa tällä kertaa siltä, että sosiaalinen media oli hiukan enemmän oikeassa kuin gallupit, mutta yllämainituista syistä rohkenen väittää, että se kertoo enemmän sattumasta ja Trumpista hybridinä mediailmiönä. Kuten Hesarille totesin: “Näissä vaaleissa Trump on täydellinen klikkisampo ja tämän ajan mediamagneetti. Hän suoltaa suoraan twiiteiksi ja klikkiotsikoiksi sopivia iskulauseita, ja sopii siksi mediakoneiston tarpeisiin erittäin hyvin.”

Yhteensä opimme sen, että poliittinen todellisuus ja ihmisten käyttäytyminen on monimutkaisempaa kuin mitä sosiaalisen median analytiikka tai gallup-kyselyt osaavat selvittää. Onhan se myös jollakin tapaa lohdullista ainakin näin yhteiskuntatieteilijälle.

– –

ps. Laadullinen tutkija minussa uskoo, että Trumpin sosiaalisen median menestystä selittää yleisen mediailmiön lisäksi kaksi asiaa: taitavat retoriset keinot ja aitous (authenticity) tai ainakin aidolta vaikuttava, kansaan vetoava viestintä. Aitouden vetovoimaa on tutkittu goffmanlaisittain Internetin sosiaalipsykologiassa, myös politiikan ja kampanjoinnin kontekstissa.

pps. Trumpista ja sosiaalisesta mediasta huomenna aamulla juttua ainakin Huomenta Suomessa ja YLEn Ykkösaamussa, äänessä Digivaalit-projektin Mari Marttila!