Mitä on fiksumpi sosiaalisen median analytiikka?

4601859272_4228421089_z
Kuva: (cc) Matt Wynn

Sosiaalisen median analytiikka pyörii yhä enimmäkseen asiasanahakujen ja niiden seurannan ympärillä. Miten kehittyneemmät tekstianalytiikan menetelmät voivat olla hyödyksi ymmärtämään, mistä keskusteluissa on kyse? Mitä reunaehtoja ja epävarmuuksia suurten lupausten automatiikkaan liittyy?

 

Tekesin rahoittama tutkimushankkeemme Smarter Social Media Analytics päättyi toukokuun lopussa. Tutkimushankkeessa pengoimme yli miljardin viestin sisältävää Futusomen somekeskusteluaineistoa automaattisen analytiikan keinoin ja selvitimme, miten keskusteludata rinnastuu muihin aineistoihin, muun muassa Taloustutkimuksen kyselydataan ja SOK:n tuotteiden myyntilukuihin.

Olemme hankkeen aikana testanneet lukuisia erilaisia ohjatun ja ohjaamattoman koneoppimisen muotoja. Lopputuloksena on syntynyt joitakin toimivia tapoja, mutta on tulut kohdattua myös useampi vesiperä. Mutta nepä vasta ovatkin oppimiskokemuksia! Tässä blogikirjoituksessa tiivistettynä hankkeen päätösseminaarissa pitämäni esitys, jossa koottuja oppejamme hankkeen ajalta.

**

1. Fiksumpi sosiaalisen median analytiikka on ihmisen ja koneen yhteistyötä

Sosiaalisen median analytiikkaan – ja tekoälykeskusteluun laajemminkin – liittyy vahvasti laskennallisuuden rationalisointi ja ns. big data -myytti [1]: mikä tahansa numeroiksi muunnettava tieto, jota voidaan käsitellä algoritmisesti, on automaattisesti luotettavaa ja totta. Näin on varsinkin, jos taustalla on isoja aineistoja eli kaikkien himoitsemaa big dataa.

Todellisuudessa kone on yksinään aika tyhmä, ja automaattinenkin analytiikka vaatii yleensä algoritmin opettamista ja yhteistyötä ihmisen kanssa. Opettaminen tapahtuu esimerkiksi luokittelemalla useita satoja tai tuhansia esimerkkiviestejä halutun kysymyksen mukaisesti. Projektissa esimerkiksi koulutimme algoritmia tunnistamaan ydinvoimaan myönteisesti tai kielteisesti suhtautuvia viestejä. Tehtävä ei ole helppo, sillä ihmisten kannat ovat monipolvisia: “Ydinvoima on OK, mutta Rosatom ei.”

Matemaatikko ja data scientist Cathy O’Neil muistuttaa kirjassaan ja Ted Talk -puheenvuorossaan algoritmien vinoutumisesta: algoritmit automatisoivat status quo -tilaa, sillä ne rakentuvat aina historiallisen datan ja sen rakenteen päälle. Maailma ei ole täydellinen, ja sen epätäydellisyys heijastuu myös koneoppimiseen ja tekoälyyn. Siksi rinnalle tarvitaan ihmisajattelua arvioimaan algoritmien oikeellisuutta ja vaikutuksia.

2. Fiksumpi someanalytiikka vaatii mietittyä datan esikäsittelyä

Automaattiseen tekstianalytiikkaan piiloutuu paljon valintoja. Niiden tekeminen alkaa jo aineiston rajauksesta: harvoin on laskentaresursseja tutkija kaikkea saatavilla olevaa dataa, joten se pitää ensimmäiseksi rajata tietyillä hakusanoilla. Millä sanoilla saadaan esimerkiksi haaviin “koko” ydinvoimakeskustelu? Jokaisessa viestissä ei välttämättä mainita ydinvoima-sanaa, vaan tärkeitä avainsanoja voivat olla esimerkiksi voimaloiden sijaintipaikat. Hakusanojen kehittely vaatii usein sekin ihmisasiantuntijan aivoja.

Oleellista on myös ymmärtää käytössä olevan datan mahdolliset rajoitukset ja niiden vaikutukset analyysiin. Esimerkiksi tutkimuskäyttöön luovutettu Suomi24-aineisto on periaatteessa koko aineisto, mutta tietokantavirheen vuoksi aineistosta puuttuu paljon viestejä vuosilta 2004-2005. Tällainen kuoppa näkyy jokaisessa aineistosta piirrettävässä aikajanassa, ja sitä tuijottaessaan tutkija tulee helposti tehneeksi virheellisiä tulkintoja keskusteluaiheen katoamisesta ellei aineiston koostumus ole tiedossa.

Analyysialgoritmit vaativat usein myös aineiston esikäsittelyä. Suomen kielen kohdalla se tarkoittaa esimerkiksi aineiston perusmuotoistamista, joka vie aikaa ja resursseja. Lisäksi tekstimassasta poistetaan tyypillisesti yleisimmät, merkityksettömät sanat eli ns. stopwordit. Niiden poistaminen on kuitenkin samalla myös valinta siitä, mikä on merkityksellistä ja mikä ei. Kiveen hakattuja ohjeita tai yleisesti hyväksyttyä listaa ei kuitenkaan ole olemassa, vaan ratkaisuja tehdään tapauskohtaisesti. Tiedossa on, että  poistettujen sanojen lista vaikuttaa lopulliseen analyysiin, mutta on epäselvää millä tavoin.

3. Fiksumpi sosiaalisen median analytiikka tarvitsee ymmärrystä alustoista ja niiden kulttuureista

Laskemisen ja big datan huumassa on helppoa unohtaa laadullisen analyysin ja kulttuurisen ymmärryksen merkitys. Sosiaalisen median keskusteludata on hyvin kontekstuaalista dataa, jonka syntymiseen vaikuttaa paitsi yhteiskunta ympärillä, myös alustan teknologia ja kyseiselle alustalle muodostunut alakulttuuri. Palstoille voi esimerkiksi syntyä oma slangi ja hyvinkin erikoistunutta sanastoa. Suomen kielen käsittelijä ei välttämättä tunnista verkossa syntyviä uussanoja saatika tuttujen sanojen erikoisia käyttötapoja. Esimerkiksi keppihevonen tarkoittaa toisaalla oikeasti keppihevosta, mutta toisaalla tietynlaista poliittista diskurssia.

Lisäksi automaattisen tekstianalytiikan on osoitettu olevan hyvin kontekstiriippuvaista. Erot tulevat ilmi varsin pienissäkin muutoksissa: Yhdysvalloissa senaatin ylähuoneen puheesta koostuvalla aineistolla koulutettu luokittelualgoritmi ei enää toimikaan alahuoneen puhetta analysoitaessa [2]. Vuoden 2005 ruokapuhetta käsittelevä algoritmi ei pärjää tarpeeksi hyvin vuoden 2015 uuden kielen ja sanaston kanssa.

Myös monet teknologian tuottamat artefaktit muodostuvat hankalaksi automaattiselle analytiikalle. Esimerkiksi monella keskustelufoorumilla viestit lähetetään anonyymisti, jolloin kirjoittajana näkyy “Vierailija”. Kuin vierailija vastaa näihin vierailijan viesteihin lainaamalla niitä, syntyy ketjuja, joissa on hämmentävän monta kertaa mainittu sana vierailija. Lopputuloksena esimerkiksi ohjaamaton aihemallinnus erottaa datasta aiheen, jossa puhutaan kovasti vierailijoista. Sen todellinen olemus ei avaudu kuin esimerkkiviestejä lukemalla.

4. Fiksumpi sosiaalisen median analytiikka on vähemmän mustia laatikoita

Viimeinen ja ehkä tärkein fiksumman sosiaalisen median analytiikan väittämä liittyy analyytikan tekemiseen ja palveluiden ostamiseen. Ala rakentuu tällä hetkellä hämmentävän vahvasti erilaisten mustien laatikoiden ympärille; käytössä on teknologioita ja algoritmeja, jotka on hienosti paketoitu tekoälyksi, mutta todellisuudessa niiden takana ovat samat kontekstiin, kieleen ja validiteettiin riippuvat ongelmat kuin yllä mainituissa esimerkeissä. Monet organisaatiot mittaavat esimerkiksi Facebookista suoraan saatavaa engagement-lukua ymmärtämättä täysin, mistä siinä oikeastaan on kysymys. Analytiikkayrityksen kauppaama keskustelun sentimenttiä kuvaava hieno piirakkadiagrammi ostetaan tyytyväisenä kyseenalaistamatta analyysissa käytettyä algoritmia.

Tämä ei tarkoita, että kaikki tehty automaattinen analytiikka olisi automaattisesti virheellistä. Mutta se tarkoittaa sitä, että analytiikan tekijöiltä vaaditaan lisää avoimuutta käytettyjen menetelmien sekä niiden heikkouksien suhteen sekä sitä, että analytiikan ostajat osaavat kysyä tarkentavia kysymyksiä mustan laatikon sisuksista. Kysymys on lopulta kielenkäytöstä: samalla tavalla kuin lääkärin on osattava selventää diagnoosi potilaalle, on datatieteilijän ja analytiikkayrittäjän osattava selittää analyysin kulku kansankielellä asiakkaalleen. Lääkärivertaus on myös sikäli osuva, että sosiaalisen median keskusteludiagnostiikka on sekään harvoin eksaktia tiedettä, pikemminkin konventioita ja estimaatteja. Pelissä on aina mukana epävarmuuselementti, jonka kanssa on vain elettävä.

Tiivistettynä kolmeen ohjenuoraan: mitä on #smartersome?

  1. Älä aliarvioi ihmistulkintaa. Sille on varattava aikaa, jos aineistosta haluaa liiketoimintahyötyjä.
  2. Vietä päivä etnografina. Selvitä oman toimialasi kannalta oleellisimmat areenat ja tavat mitata keskustelua.
  3. Älä osta mustia laatikoita. Kysy ja selvennä, mitä menetelmät tekevät. Kysy niin kauan, kunnes ymmärrät.

 

**
Lähteet:

[1] Desrosières, A. (2001). How Real Are Statistics? Four Posssible Attitudes. Social Research, 68(2), 339–355.
Beer, D. (2017). Envisioning the power of data analytics. Information, Communication & Society, 21(3), 1–15.
Couldry, N. (2014). The Myth of Big Data. In Schäfer, M. T., & Van Es, K. (Eds.). The datafied society : studying culture through data. Amsterdam: Amsterdam University Press. Retrieved from http://oapen.org/search?identifier=624771
[2] Yu, B., Kaufmann, S., & Diermeier, D. (2008). Classifying Party Affiliation from Political Speech. Journal of Information Technology & Politics, 5(1), 33–48. 

Taitavasti eettistä verkkotutkimusta

https://www.flickr.com/photos/janetmck/15422638442/
(cc) Janet McKnight, Flickr

Vaatii taitoa ja rohkeutta rakentaa sosiaalista mediaa hyödyntävät tutkimusasetelmat niin, että eettisen tutkimuksen ehdot täyttyvät. // Teksti on rinnakkaisjulkaisu TENK:n Vastuullinen tiede -sivustolta (CC BY 4.0).

Sosiaalinen media valtavine viestimäärineen näyttäytyy monelle tutkijalle houkuttelevana aineistopankkina, halusipa sitten tutkia ihmisten asenteita ja käyttäytymistä tai yhteiskunnallisia muutoksia. Aineistojen vapaa saatavuus ei kuitenkaan poista eettisen pohdinnan tärkeyttä.

Verkkosisältöjen tutkimuskäyttöä koskevat eettiset käytännöt ja ohjeistukset ovat kirjavia Suomessa ja kansainvälisesti. Suomessa ihmistieteiden eettisen ennakkoarvioinnin ohjeistus ei ota erikseen kantaa verkkotutkimukseen. Tutkimukseen vaikuttavat lait puolestaan ovat auttamattomasti digitaalista aikaa jäljessä. Käytännössä tutkija joutuu verkkoaineistojen kanssa toimimaan hiukan harmaalla alueella ja luottamaan omaan harkintaansa ratkaisuja tehdessään.

Tutkimuskohteena ihminen vai data?

Tutkimuseettisen neuvottelukunnan laatima ohjeistus ihmistieteiden eettisestä ennakkoarvioinnista lähtee siitä, että ihmistieteellistä tutkimusta ohjaa kolme eettistä periaatetta: tutkittavan itsemääräämisoikeuden kunnioittaminen, vahingoittamisen välttäminen sekä yksityisyyden ja tietosuojan säilyttäminen. Periaatteet viittaavat siis erityisesti tutkimuksiin, jossa tutkimuksen kohteena on ihmistoimija. Verkkoaineistojen kohdalla tyypillistä on kuitenkin ihmisen, datan ja tekstin rajan hämärtyminen.

Jos tutkimuksen fokus on sisällöissä, voidaan sosiaalisen median aineistot rinnastaa julkistetuiksi tiedoiksi tai rekisteriaineistoiksi, jolloin tutkittavien erillistä suostumusta ei vaadita. Sosiaalisen median aineistoissa tekstit kuitenkin tyypillisesti ovat yksityishenkilöiden tuottamia ja käyttäjän nimi usein näkyvillä.

Usein verkossa tutkimusta tehdään kontekstissa, jossa suostumuksen kerääminen kaikilta tutkittavilta on vaikeaa ja käytännössä jopa mahdotonta. Monilla verkkoalustoilla keskustelua käydään anonyymisti eikä esimerkiksi vanhasta aineistosta ole useinkaan mahdollista etsiä nimetynkään tekijän yhteystietoja.

Verkkotutkimuksessa tutkimuskohde on siis väistämättä häilyväinen, eikä ihmisyys olekaan kovin järkevä tapa tarkastella verkkotutkimusta. Keskeisempää on pohtia laajemmin tutkimuksen mahdollisesti aiheuttamaa haittaa, tutkittavien haavoittuvutta ja yksityisyyttä.

Kimurantti julkisuus ja yksityisyys

Verkossa julkisen ja yksityisen ero hämärtyy helposti. Sosiaalisen median kontekstissa teknisesti julkisella aineistolla tarkoitetaan kaikkien saataville julkaistuja päivityksiä esimerkiksi avoimilla keskustelualustoilla tai ryhmissä. Selkeästi yksityistä aineistoa ovat esimerkiksi tutkijalle luottamuksellisesti lähetetyt viestit sosiaalisen median kanavissa tai viestit suljetuista ryhmistä, joihin tutkijalla on pääsy.

Silti teknisesti julkistenkin viestien kohdalla on vaikea arvioida kirjoittajien käsitystä aineiston julkisuudesta. Yksityisyyden ja julkisuuden käsitteet ovat vahvasti kulttuurisidonnaisia. Lisäksi palveluiden yksityisyysasetukset muuttuvat niin usein, että tavalliselle käyttäjälle ei välttämättä ole aina selvää, mitkä viesteistä ovat julkisia ja mitkä eivät. Näin ollen tiedon julkinen saatavuus ei yksinään riitä eettiseksi periaatteeksi, vaan tutkijan on pohdittava myös tiedon tuotannon kontekstia sekä tiedon arkaluontoisuutta.

Teknisestä ja lainopillisesta näkökulmasta neuvottelukumppanina verkkoaineistojen tutkimuksessa on myös verkkoalusta, jossa sisällöt on julkaistu. Tutkijan onkin syytä tutustua verkkopalveluiden käyttöehtoihin. Ne asettavat usein reunaehtoja materiaalin tutkimuskäytölle sekä rajoittavat koneellisesti ladattavan aineiston saatavuutta joko suojellakseen käyttäjien yksityisyyttä tai omaa liiketoimintaansa. Esimerkiksi Facebookista pystyy koneellisesti lataamaan ainoastaan julkisten ryhmien ja sivujen sisältöjä, mutta yksityishenkilöiden profiileista julkisetkaan päivitykset eivät ole saatavilla. Selaimen kautta ne ovat kuitenkin nähtävissä ja helposti osa esimerkiksi verkkoetnografin aineistoa.

Teksti ja konteksti

Tutkijat ovat käsitelleet luottamuksellisia aineistoja ennen digiaikaakin, eivätkä yksityisyyden suojaamisen ongelmat ole verkkoaineistoissa perustavalla tavalla erilaisia esimerkiksi haastatteluaineistoihin verrattuna. Myös sosiaalisen median aineistoja on analyysivaiheessa mahdollista käsitellä niin, että yksityishenkilöiden anonymiteetti ja tietosuoja säilyvät. Esimerkiksi poliittisen viestinnän tutkimusprojekteissamme anonymisoimme aineistosta tavalliset käyttäjät, mutta jätimme poliitikkojen nimet näkyville.

Anonymisointi kuitenkin ratkaisee vain analysointivaiheen haasteita. Sosiaalisen median aineistojen erityispiirre on se, että vaikka tutkimuksen kohteena olisikin pelkkä teksti, on se helppo yhdistää takaisin alkuperäiseen kirjoittajaan. Yksittäisen twiitin lähettäjä löytyy helposti syöttämällä teksti hakukoneeseen. Lisäksi erilaisia aineistoja yhdistämällä anonymisoitujenkin henkilöiden tunnistaminen voi olla mahdollista.

Siksi eettiset periaatteet on pidettävä mielessä myös silloin, kun tutkimusjulkaisuun valitaan lainauksia aineistosta tai jos aineistoa halutaan avata tutkimuskäyttöön. Arkaluontoisten teemojen kohdalla tutkija joutuu punnitsemaan, näyttääkö hän lukijalle aineistonäytteitä parantaakseen argumentaatiotaan vai pyrkiikö hän turvaamaan tutkittavien anonymiteetin.

Tietoa, taitoa ja rohkeutta

Lakitekstiviidakossa ja eettisiä ohjeita tiukasti lukien on helppo tulkita, että sosiaalisen median aineistojen käyttäminen ei ole laillista tai eettisesti suotavaa. Varsinkin yhteiskuntatieteellisen tutkimuksen näkökulmasta tutkijoilta kaivataan kuitenkin paitsi ammattitaitoa, myös rohkeutta ja taitoa rakentaa sosiaalista mediaa hyödyntävät tutkimusasetelmat siten, että eettisen tutkimuksen ehdot täyttyvät. Sosiaalinen media heijastelee lukuisia yhteiskunnallisesti merkittäviä teemoja. On sääli, jos esimerkiksi yhteiskunnallista vallankäyttöä koskevista tutkimuksista pitäisi ohjeiden puuttuessa jättää digitaalinen osuus tekemättä.

Kuten kaikessa tutkimuksessa, verkkotutkimuksessa on asetelmia, jotka eettisistä syistä tulisi jättää toteuttamatta. Tutkimuksen tutkittaville aiheuttamat haitat ja seuraukset ovat kuitenkin kontekstin määrittämiä tekijöitä, minkä vuoksi yleispätevien ohjeiden antaminen on mahdotonta. Eettisen pohdinnan avuksi löytyy kuitenkin erilaisia apuvälineitä esimerkiksi tämän kirjoituksen viitteistä – erityisesti verkkotutkimuksen kansainvälisen yhdistyksen Association of Internet Researchers AoIR:n julkaisema eettinen ohjeistus on erinomainen apu tutkijalle.

Salla-Maaria Laaksonen on tutkija Helsingin yliopistossa.

Lisätietoja:

  • AoIR (2012). Ethical decision-making and Internet research: Version 2.0. Recommendations from the AoIR Ethics Working Committee. Final Draft; Association of Internet Researchers. (pdf)
  • Östman, S., & Turtiainen, R. (2016). From research ethics to researching ethics in an online specific context. Media and Communication, 4(4), 66–74.
  • Tikka, Minttu (2014) Tutkija nuorten mediamaailmassa: tutkimuseettisiä kysymyksiä. Nuorisotutkimus vol. 32(3).
  • Turtiainen R, Östman S. (2013). Verkkotutkimuksen eettiset haasteet: Armi ja anoreksia. Kirjassa: Laaksonen S-M, Matikainen J, Tikka M. (toim.) Otteita verkosta. Verkon ja sosiaalisen median tutkimusmenetelmät. Tampere: Vastapaino, s. 49–67.

Somekohun anatomia – Mikä selittää kohun kestoa?

Somekohun anatomia – Mikä selittää kohun kestoa?

Somekohu, someraivo, sometapaus – Sosiaalisen median aikaansaamat puheenaiheet tuntuvat nousevan ja kuolevan yhä kiihtyvällä tahdilla. Niin yritykset kuin yksilöt suhtautuvat kohuihin monesti kauhunsekaisin tuntein: miten toimia jos seuraavaksi se olenkin minä myrskyn silmässä? Toisaalta jonkinlainen kohu voi olla tavoitteena, jos halutaan mahdollisimman suuri huomio omalle tuotteelle tai brändille.

Markkinoinnin puolella tavoitteellinen kohuilu kategorisoituu viraalimarkkinonnin piiriin. Tavoitteena on, että ilman merkittävää markkinointipanostusta keskustelu esimerkiksi omasta uutuustuotteesta leviäisi kuin virus, ja erityisesti sosiaalisen median myötä viraalimarkkinointi on noussut tärkeään rooliin. Tutkimuksessa on paljon pohdittu, mitkä asiat edistävät keskusteluaiheiden viraalista leviämistä. Kolme kilpailevaa strategiaa nousee usein esille:

  1. Aiheen kylväminen (seeding) mielipidevaikuttajille
  2. Aiheen kylväminen kriittiselle massalle
  3. Aiheen kylväminen eri verkostoja yhdistäville yksilöille (ns. siltastrategia)

Täysin yksimielistä näkemystä parhaasta strategiasta ei ole, mutta mielipidevaikuttajat vaikuttavat olevan tärkeässä roolissa aiheiden leviämisessä, koska he yksinkertaisesti postaavat someen paljon ja osallistuvat herkästi erilaisiin tempauksiin. Toisaalta median ollessa ns. hybridinen mielipidevaikuttajat ja julkkikset saattavat olla erityisen tärkeitä, koska perinteinen media kirjoittaa heistä todennäköisemmin kuin meistä taviksista.

Usein aiheiden viraalisuutta tutkittaessa keskitytään aiheesta käytävän keskusteluun määrään. Lasketaan siis esimerkiksi postausten, jakojen, latausten tai katselukertojen määriä. Harvemmin tutkitaan, mitkä tekijät selittävät aiheesta käytävän keskustelun kestoa. Esimerkiksi nyt ajankohtaisista aiheista voi todeta, että #metoo-keskustelu on kestänyt jo kuukausia, kun taas Pirkko Arstilan kolumnista kohistiin vain hetken.

Tutkimme aihetta SSMA-hankkeen puitteissa hyödyntämällä tutkimuskumppanimme Futusomen kehittämää Viraalivahti-palvelua. Viraalivahti on kehitetty tunnistamaan keskusteluaiheita, jotka alkavat saada poikkeuksellisen paljon mainintoja normaaliin verrattuna. Inspiraationa Viraalivahdille on toiminut ns. Mutti-gate, joka sai alkunsa, kun kokki Henri Alén tammikuussa 2014 tviittasi tomaattikastikereseptin tunnisteella #soosi ja ihmiset ostivat kauppojen hyllyt tyhjiksi Mutti-tomaattikastikkeesta.

Tutkimuksessa tarkasteltiin Viraalivahdin tunnistamia eri viraalitapauksia tammikuusta 2015 maaliskuuhun 2017. Osa tapauksista nousi Mutti-gaten sfääreihin, kun taas suurin osa päättyi nopeasti sen jälkeen, kun algoritmi tunnisti sen. Keskityimme ainoastaan hashtag- ja avainsanaperusteisiin tapauksiin, jotka saivat algoritmilta heti ensimmäisenä päivänä riittävän korkean luokituksen. Näiden rajoitteiden myötä tutkittavien viraalitapausten määrä oli 1335. Esimerkiksi #halpuuttaminen ja ABC:n lehtipihvikohu nousivat aineistossa Mutti-gatea vastaaviksi viraalitapauksiksi.

Määrittelimme tapauksen keston laskemalla yhtäjaksoisten päivien määrän, jolloin aihe sai vähintään yhden maininnan. Rajasimme pois yli 30 päivää kestävät keskustelut, koska ne tulkittiin koskevan jatkuvia keskusteluaiheita. Jäljelle jäi 960 viraalitapausta, joita koskevia mainintoja haettiin Futusomen rajapinnan avulla eri some-kanavista, kuten keskustelufoorumeista, avoimista Facebook-keskusteluista, Twitteristä, Instagramista, blogeista, uutiskommenteista, ja niin edelleen. Tällöin aineisto käsitti yhteensä lähes 14 miljoonaa some-postausta. Kuva näyttää, miten data jakautui eri alustoille.

Somekohu_saitit

Tapausten kesto oli keskimäärin noin kolme päivää hashtag-perusteisille ja noin yhdeksän päivää avainsanaperusteisille tapauksille. Lisäksi määrittelimme keskimääräisen päivittäisen postausten, keskustelijoiden ja keskustelukanavien määrän, sekä postausten, keskustelijoiden ja kanavien suhteellisen muutoksen ensimmäisen päivän jälkeen. Eri mallinnustavoilla esille nousi selkeä tekijä, joka selitti tapauksen kestoa: Mitä useammilla eri keskustelukanavilla aiheesta puhuttiin, sitä kauemmin se kesti. Postausten tai keskustelijoiden määrällä ei ollut vaikutusta aiheesta käytävän keskustelun kestoon.

Tuloksen perusteella voi väittää, että keskusteluaiheilla on lyhyempi elinkaari yksittäisten kanavien sisällä ja uudet kanavat ja yleisöt ovat edellytys keskustelun pidemmälle jatkumiselle. Tulos myös tukee eri verkostoja yhdistävien yksilöiden merkitystä viraalitapausten jatkumisen näkökulmasta. Todennäköisesti myös perinteisten medioiden mukaantulo edistää keskustelun jatkumista nimenomaan laajentamalla keskustelua uusiin kanaviin.

Lopuksi vielä vinkki niille, jotka haluavat välttää somekohuja: vaikka yhdessä kanavassa yhtenä päivänä ei-toivotusta aiheesta keskustellaan paljon, älä huolestu, sillä keskustelu ei välttämättä jatku kauan – ellei se leviä muihin kanaviin.

Tutkimus esitellään tammikuussa 2018 Hawaii International Conference on System Sciences -konferenssissa otsikolla “Anatomy of Viral Social Media Events” ja sen ovat laatineet Essi Pöyry, Salla-Maaria Laaksonen, Arto Kekkonen sekä Juho Pääkkönen.

Slämärit ja superkäyttäjät: ihmeellinen Internet tutkijan työpöydällä

 

https://www.flickr.com/photos/meddygarnet/8346190491/
(cc) Morgan @Flickr

Smarter Social Media Analytics -tutkimushankkeessa sovellamme ja kehitämme erilaisia koneoppimiseen pohjautuvia menetelmiä sosiaalisen median tekstisisältöjen analysointiin. Fiksumpi  analyysi kuitenkin vaatii algoritmien rinnalle ihmisilmää – vähintäänkin kehitysvaiheessa.

Olen lukenut eilen ja tänään  SSMA-hankkeemme aineistosta läpi parintuhannen viestin otoksen, jossa viestit koskevat kasvissyöntiä tavalla tai toisella. Otos liittyy koko aineistosta tehtyyn aihemallinnukseen, jossa noin puolen miljoonan viestin massasta on ohjaamattoman koneoppimisen avulla erotettu erilaisia topiikkeja tai teemoja. Mallinnuksen syötteenä skripti antaa kasan perusmuotoistettuja sanalistoja, jotka kuvaavat näitä erilaisia aiheita. Lopulta kuitenkin ainoa tapa varmistaa, että tehty analyysi toimii kuten pitää, on ihmisvoimin tarkistaa mistä topiikeissa oikeastaan on kysymys. Tämä tapahtuu esimerkkiviestejä tarkistamalla.

Tarkistuskeikka on pieni matka yhä vain ihmeelliseen Internetiin. Sosiaalisen median tutkimuksen parasta antia ovat usein juuri näkymät vuorovaikutuksen maailmoihin, joita ihmiset verkossa elävät ja tuottavat mikrotasolla. Tässä kaksi hienoa esimerkkiä kasvisruokakeskusteluista.

**

Viestejä läpikäydessä olen kohdannut kymmeniä erilaisia virtuaalislämäreitä. Omassa nuoruudessani slämäri oli vihko, jossa jokaisella sivulla oli eri kysymys ja vastaukset kirjattiin tietyllä symbolilla tai anonyymisti. Nykypäivän slämäri on keskustelupalstalla kiertävä lista numeroituja kysymyksiä, johon kukin kirjoittaja vastaa, tai lista [ ] väittämiä, joista [x] rastitaan kirjoittajaan sopivat kohdat. Arvioin kirjoittajien olevan enimmäkseen melko nuoria.

Tällaiset memeettiset sisällöt ovat toistuvia, mutta kuitenkin niin monipuolisia tekstimuotoja, ettei sanojen yhdessä esiintymisen perusteella aiheita luokitteleva algoritmi osaa niitä niputtaa. Virtuaalislämäreissä kuitenkin kiertää kasvisyöntiä koskevia kysymyksiä, joiden vuoksi kaikki nuo tuhannet viestit näkyvät jokaisessa kasvissyönti-sanalla tehdyssä haussa tai tietyllä sanalla piirretyissä trendikuvaajissa. Toki ne osaltaan trendistä kertovatkin; kasvissyönti puhututtaa.

Toinen ihmettelyn aihe oli aihemallinnuksessa erästä topiikkia kuvaava sana, joka ei ollut mikään suomen kielen tunnistettava sana. Pienen selvittelyn jälkeen paljastui, että kyseessä on yksi Suomi24-foorumin superaktiivinen käyttäjä, joka kirjoittaa palstalle joka päivä keskimäärin kolmetoista viestiä päivässä.

Viestimäärä on ilmeisen tarpeeksi, että saa aikaan oman aiheen aihemallinnuksessa, kun muut käyttäjät mainitsevat kyseisen nimimerkin tarpeeksi usein. Selvästi siis onnistunut keskustelunherättäjä ja oman mikroyleisönsä julkkis, jonka viesteillä voi olla suurikin vaikutus keskustelujen aihepiiriin.

**

Molemmat esimerkit ovat sellaisia, joita on hankala automaattisesti tekstin seasta erottaa ilman laadullista tarkastelua, tai vähintäänkin sen tekeminen vaatisi melkoisia tapauskohtaisia virityksiä koodiin. Viritykset taas ovat varsinkin tuotantokäytössä aika hankalia ja toisaalta tekevät analyysista prosessin, jonka toimintaperiaatteita on vaikea ymmärtää ja tuloksia tulkita.

Silti ne ovat aika oleellisia mikrotason havaintoja siitä dynamiikasta, jolla vuorovaikutus verkossa muodostuu.

Kohti fiksumpaa keskustelujen mallinnusta siis pyritään, mutta todellisuus on aina vaan analytiikkaa ihmeellisempää. Se on jotenkin lohdullista.

Näin laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Jukka Huhtamäki & Salla-Maaria Laaksonen

Sosiaalisen median laskennallinen analytiikka perustuu piirteisiin (engl. feature). Piirteellä viitataan sosiaalisen median toimijoiden ja heidän tuottamien sisältöjensä ominaisuuksiin. Twitter-käyttäjällä on esimerkiksi tietty määrä seuraajia ja seurattavia ja twiiteissä käytetään aihetunnisteita. Valtaosa analytiikasta nojautuu tällä hetkellä helposti mitattaviin, numeerisiin ominaisuuksiin, kuten tykkäysten, retweettausten tai seuraajien määrään Twitterissä tai suorista mittauksista johdettuihin summalukuihin, kuten Facebookin engagement tai impressions.

Modernit laskennalliset keinot mahdollistavat jalostetumpaakin piirreanalyysia. Twiittien ja muiden tekstisisältöjen tunnesävyn eli sentimentin analyysi on esimerkki analytiikan keinoin tuotetusta jalostetusta piirteestä. Verkostoanalyysillä voidaan tuottaa piirteitä toimijoiden rakenteellisesta sijainnista verkostokokonaisuudessa. Vastaavasti esimerkiksi Instagram-kuvista voidaan tuottaa piirteitä — onko kuvassa henkilö, minkälainen tausta on, paistaako aurinko?

Piirteiden olennaisin hyöty on se, että ne jalostavat laadullista tietoa laskennalliseksi. Piirteiden avulla voidaan sekä tuottaa tutkittua tietoa syy-seuraussuhteista että opettaa koneoppimisen keinoin algoritmeja tunnistamaan kiinnostavia ilmiöitä. Niitä voivat olla esimerkiksi uuden trendi-ilmiön nousu, muutos asiakkaiden suhtautumisessa yritykseen tai jopa poliittinen liikehdintä. Näin isot ja abstraktit ilmiöt käytännössä rakentuvat jonkinlaisen piirteiden yhdistelmän päälle: anonyymien kirjoittajien määrä kasvaa, käytettyjen hashtagien jakauma pienenee, tai vaikkapa keskusteluissa kehittyy aiemmin tuntematon sana tai aihepiiri.

Mitä twiitistä saa irti?

Yksinkertaisimmillaan viestien analyysi keskittyy tiettyihin sanoihin ja käsitteisiin, joita voidaan palauttaa perusmuotoon ja tarkkailla esimerkiksi tietyn termin esiintymistä aineistossa ajan yli. Vielä yksinkertaisempaa on seurata esimerkiksi täsmällisesti merkittyjä hashtageja.

Mutta mitä muuta viesteistä saa irti kuin sanoja? Syvällisempi piirteisiin keskittyvä lähestymistapa on esimerkiksi tarkastella viestin sävyjä. Esimerkiksi Mike Thelwallin kehittämä SentiStrength -sentimenttianalyysikirjasto tulkitsee kirjoittajan suomenkielisen olevan sävyltään positiivinen:

sentistrenght-sallantwiitti

Presidentti Sauli Niinistön englanninkielinen twiitti saa vielä positiivisemman arvion:

sentistrenght-niinistontwiitti

Kuvan piirteiden analyysi on jo hitusen monimutkaisempaa, mutta sekin onnistuu. Microsoftin Computer Vision API tunnistaa, että Niinistön twiittaamassa kuvassa esiintyy varmasti ihmisiä, 86% todennäköisyydellä he seisovat ja 50% todennäköisyydellä poseeraavat. Tämän syvällisemmäksi menevien tulkintojen tekeminen on kuitenkin jo vaikeaa: koneen olisi melkoisen mahdotonta tulkita esimerkiksi taustalla näkyvän vartijan mahdollista silmien pyörittelyä, vaikka tällainen ironinen viesti onkin ihmistulkitsijalle melko selkeä.

niinistontwiitti

Mitä hyötyä piirteiden tunnistamisesta on?

Piirteiden tunnistamisen hyödyntämisessä on syytä erotella eri käyttötarkoitukset. Tutkimuskäytössä on usein tärkeää yksilöidä tarkasti piirteet ja todistaa niiden yhteys tutkittavaan ilmiöön tilastollisesti. Monessa käyttötarpeessa kuitenkin riittää, jos suurin osa aineistosta osuu kohdalleen tai jos automatiikalla saadaan edes pienennettyä manuaalista työtä – esimerkiksi keskustelupalstojen moderoinnissa tai asiakaspoistuma-analyysissä.

Asiakaspoistuma-analyysissä toteutuneista poistumista kerätään opetusaineisto, jossa piirteitä käytetään esimerkiksi asiakkaan brändiin liittyvien viestien tunnistamiseen ja luokittelemiseen vaikkapa tunnesävyn perusteella. Analyysin tavoitteena on, että sosiaalisen median datan perusteella saadaan esimerkiksi tunnistettua sopimuksensa pian irtisanova asiakas. Ollakseen uskottavaa, tällaisen tunnistuksenkin tulisi pohjautua mahdollisimman tarkasti todennettuun ja eri konteksteissa toistettuun yhteyteen. Ylipäänsä on hyvä muistaa ettei mikään automaattinen luokittelu pääse sadan prosentin tarkkuuteen – ei edes ihmisten tekemä.

Kentän kehittymistä hidastaakin myös koneoppimisen kontekstisidonnaisuus: esimerkiksi vihapuhetta tunnistava luokittelija osaa tunnistaa puheen vain sillä kielellä ja siinä kontekstissa, mihin se opetettu. Valtaosa koneoppimisesta onkin ohjattua koneoppimista, jossa koulutusmateriaaleina käytetään ihmisten luokittelemia esimerkkidatasettejä. Siksi opetusdatasetit ovat tekoälyajan tärkein resurssi.

Mitä tulevaisuudessa?

Koneoppiminen on elimellinen osa piirteisiin perustuvaa someanalytiikkaa. Regressioanalyysi, luokittelu ja ryvästäminen mahdollistavat analytiikan eri vaiheet kartoittavasta kuvailevaan ja ennustavasta ohjaavaan. Tällä hetkellä erityisesti konenäköön liittyvä koneoppimisen tutkimus keskittyy syväoppimiseen (katso esimerkiksi Tuomo Hiippalan palkittu tutkimus sotilasajoneuvojen tunnistamisesta sosiaalisen median kuva-aineistoista), mutta myös syväoppimiseen perustuvissa tekstiaineiston luokittelusovelluksissa on otettu merkittäviä askeleita (Kipf, 2016).

Koneoppimismallien ennustuskyky on parantunut merkittävästi, mutta mallit ovat yhä mustia laatikoita — mallin yksityiskohdat jäävät usein ainoastaan koneen tietoon tai eivät avaudu ihmistulkitsijalle. Tästä syystä onkin kiinnostavaa seurata, miten syväoppiminen ja muut edistyneet koneoppimismenetelmät saadaan parhaalla tavalla valjastettua sosiaalisen median analytiikan tueksi.

Lisälukemista:


Teksti on tuotettu DEEVA– ja SSMA-tutkimushankkeiden yhteistyössä.

Algoritminen julkisuus on vinoutunutta kyborgijulkisuutta

2453788025_fd51aeb4d9_z
(cc) runran @Flickr

Teknologia nähdään helposti neutraalina tiedonvälittäjänä. Moni viestinnän ammattilainen ei tiedä, miten teknologia toimii tai miten sen kanssa pitäisi toimia. Meidän pitäisi kuitenkin olla yhä tietoisempia siitä, miten esimerkiksi algoritmit meitä  tulevaisuudessakin ohjaavat.

“Software is, in other words, a part of a ‘technological unconscious’ (Clough, 2000), a means of sustaining presence which we cannot access but which clearly has effects, a technical substrate of unconscious meaning and activity.” (Thrift, 2005)

Maantieteilijä-sosiologi Sir Nigel Trift on käyttänyt teknologisen tiedostamattoman käsittettä kuvaamaan teknologian ja ohjelmistojen vaikutusta eräänlaisena sosiaalisen elämän kehikkona, joka tiedostomattomasti vaikuttaa toimintaamme.

Viestinnän ja julkisuuden näkökulmasta teknologisen tiedostamattoman käsite kuvaa kahta asiaa: Ensinnäkin niitä informaatioteknologian tuntemattomia ominaisuuksia ja tapoja, jotka muokkaavat arkea ja erityisesti media-arkeamme, mutta joista emme useinkaan ole kovin tietoisia. Toisaalta käsite muistuttaa siitä, että monella viestinnän ammattilaisella ei ole tarpeeksi tietoa siitä miten teknologia lopulta toimii tai miten sen kanssa pitäisi toimia.

Teknologinen tiedostamaton määrittelee monella tapaa sitä, miten julkisuus muotoutuu. Keskeisin tämän hetken julkisuuden rakennuspalikka on newsfeed, uutisvirta, joka eri palveluissa jäsentää verkon sisältöjä pyrkien maksimoimaan huomion ja palvelussa vietetyn ajan. Käytännössä tämä tapahtuu erilaisten algoritmien avulla: pienet tietokoneohjelmat tai laskukaavat ohjaavat sisällön esittämistä aiempaan käyttäytymiseemme perustuen.

Huolestuttavaa on, että teknologia nähdään neutraalina tiedonvälittäjänä. Vuoden 2017 Edelman Trust Barometerissä vastaajat arvioivat hakukoneet kaikkein luotettavimmaksi tiedonlähteeksi. Perinteisen median luottamus puolestaan on romahtanut. Teknologia vaikuttaa puolueettomalta ja virheettömältä toimijalta samalla kun perinteinen media nähdään eliitin käsikassarana.

Algoritmit ovat kuitenkin tasan yhtä hyviä kuin mekin. Ihmisten toimintatavat, vinoumat ja virhekäsitykset siirtyvät suoraan niihin joko ohjelmoinnin tai koneoppimisen kautta. Hakukone suoltaa sisältöä, josta se arvelee etsijän pitävän aiemman verkkokäyttäytymisen perusteella. Teknologia tuottaa kaikukammioita, koska ihmiset ovat sosiaalisessa toiminnassa tyypillisesti mieluten oman viiteryhmänsä kanssa. Työnhakualgoritmi syrjii tummaihoisia. Microsoftin tekoälybotti jouduttiin ottamaan pois linjoilta, kun se oppi päivässä suoltamaan rasistista vihapuhetta Twitterin elämänkoulussa.

Sisältöjen kohdentamisessa ja teknologiajättien bisnesmallina vinotkin algoritmit kuitenkin toimivat hyvin. Facebook tahkoaa rahaa 6,4 miljardin dollarin liikevaihdolla. Käyttäjämäärät suosituissa sosiaalisen median palveluissa jatkavat kasvuaan, ja alustat tuottavat uusia toimintamuotoja, joilla pyritään maksimoimaan niissä vietetty aika. Julkisuuden ja demokratian kannalta kuitenkin ongelmallista on, että algoritmi ei osaa tehdä eroa eri sisältöjen välillä. Se tarjoilee samalla logiikalla kenkiä, lääkkeitä ja politiikkaa. Syyskuussa 2017 Facebookissa pystyi esimerkiksi kohdentamaan mainoksia suoraan juutalaisvihaajille.

Rahalla siis saa. Bisneslogiikan nimissä samaan aikaan mediayhtiöt ovat huomanneet, että Facebookin algoritmi näyttää entistä vähemmän mediatalojen postauksia niiden seuraajille. Sen sijaan se painottaa sosiaalisuutta ja engagementtia: newsfeedissä näkyy todennäköisimmin sisältöjä, joita kaverisi ovat jakaneet, tykänneet tai kommentoineet. Faktoilla ei tässä pelissä ole arvoa. Sen sijaan tunteilla ja epärehellisyydellä on.

Tämä logiikka on voimalain logiikkaa (Matthew effect). Mikä tahansa tahmainen, ihastuttava tai vihastuttava sisältö päätyy todennäköisemmin näytetyksi, ja sisällön suosio kasvaa entisestään. Siksi julkisuudestamme muodostuu väistämättä tunnejulkisuus, joka etenee kohusta toiseen. Teknologinen tiedostamaton on siis lopulta hybridiä ihmisyyttä, julkisuuden muodostumista kyborgitoimijoiden kautta.

Viestinnän ammattilaisen näkökulmasta huolestuttavaa on se, että teknologian edistämä logiikka hiipii myös niihin tapoihin, joilla viestintää tehdään ja mittareihin, joilla sitä mitataan. Klikkien tuijottamisesta on kenties päästy piirun verran eteenpäin, mutta nyt uusi mittari, jota kaikki maanisesti tuijottavat on sisällön aikaansaama sitoutuminen, engagament.

Se on muuten Facebookin kaupallista menestymistä varten tehty mittari.

Mitäpä jos pakasta napatun mittarin sijasta viestinnän ammattilaiset itse rohkeasti määrittelisivät, mitä on hyvä viestintä, mitä on vaikuttavuus ja miten sitä halutaan mitata?

– –
Salla-Maaria Laaksonen (VTT) on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.

Blogikirjoitus on rinnakkaispostaus Viesti ry:n blogista. ja perustuu HY+:n ja Viesti ry:n Viestinnän tulevaisuus -tilaisuudessa 26.9.2017 pidettyyn puheenvuoroon.

Smarter Social Media Analytics Underhoodilla

IMG_20170403_161015Vietimme viikon 3.-7.4. SSMA-projektin tutkijaporukkalla startupyritys Hupparihörhön luona. Kenttätyöviikon tarkoituksena oli tutustua Hupparihörhön kehittämään Underhood-palveluun, joka mittaa yritysten mainetta sosiaalisen median dataan perustuen.

Underhood on ollut lähikuukausina uutisissa toteutettuaan Aamulehden kanssa kuntavaalitulosta Tampereella ennustavan mainemittarin. SSMA-projektin puolesta olemme kiinnostuneita tutkimaan, miten sosiaalisen median datalla voidaan mitata ja ennustaa yhteiskunnallisia ilmiöitä. Viikko Underhoodilla kuntavaalien alla tarjosi erinomaisen mahdollisuuden seurata konkreettisen tapauksen ennustamista somedatasta perehtyen samalla Underhoodilaisten näkemyksiin data-analytiikan mahdollisuuksista.

Alkuviikon aikana tutustuimme Underhoodin somedatasta yrityksille laskemaan mainepisteytykseen, joka perustuu kolmelle eri mittarinarvolle. Ensinnäkin Underhood seuraa yritysten näkyvyyttä, joka lasketaan yrityksen Facebook-sivun saamien tykkäysten ja Twitter-seuraajien määristä sekä Facebookin antamasta buzz-arvosta. Toiseksi Underhood mittaa yritysten dialogia someyleisön kanssa, joka määrittyy yrityksen keskimääräisen julkaisumäärän ja julkaisujen saamien kommenttien, tykkäysten sekä jakojen perusteella. Lisäksi dialogimittarin arvoon vaikuttaa yrityksen vastausaste saamiinsa kommentteihin. Kolmanneksi mainepisteytykseen vaikuttavat yrityksen ja yleisön käyttämien sanojen samanlaisuus ja sentimenttianalyysilla saatu yleisön kommenttien sävy. Näkyvyyttä, dialogia ja samanlaisuutta mittaavat pisteet skaalataan Underhoodissa asteikolle 0-10. Näiden pisteiden keskiarvosta lasketaan sitten varsinainen mainepisteytys, jonka arvo on myös asteikolla 0-10.

Underhood-pisteytyksen ja sen tekijöiden tarkastelussa meitä kiinnostaviksi kysymyksiksi nousivat eri mittareiden väliset suhteet ja mittauskohteet: mitä oikeastaan mitataan, kun kerätään dataa esimerkiksi yritysten ja Facebook-tykkääjien yhteisesti käyttämien sanojen määristä? Millä perustein voisimme ajatella, että somedatan pohjalta määritetyt mittarit olisivat luotettava ennustaja ilmiöille, joita koskeva uutisointi ja keskustelu eivät rajoitu sosiaaliseen mediaan?

Underhood-pisteytys on aikaisemmin ennustanut oikein esimerkiksi semifinalistien valinnan Ison-Britannian X-Factor -ohjelmassa, mutta kilpailun voittajan ennuste sen sijaan oli väärä. Yksi selitys tälle on, että ennusteen sotki kansainvälisen sosiaalisen median osoittama kiinnostus: X-Factor UK:ssa äänestäminen oli mahdollista ainoastaan Isossa-Britanniassa, mutta Underhood-pisteytys heijasteli finalistien suosiota kansainvälisellä tasolla. Tämä on esimerkki tapauksesta, jossa sosiaalisen median dataan perustuvat mittarit mittaavat ennusteen kohteesta (pärjääminen Ison-Britannian X-Factorissa) erillistä ilmiötä (suosio kansainvälisessä sosiaalisessa mediassa).

Saimme käyttöömme Underhoodin pisteytyksen perustana olevan datan, joka sisälsi eri mittareiden arvot ja näihin vaikuttavat tekijät päiväkohtaisesti tallennettuina elokuulta 2016 alkaen (dataa yhteensä 3958 yritykseltä ja poliitikolta). Viikon aikana tutkimme datan eri muuttujien riippuvuutta toisistaan ja vertasimme eri mittarinarvojen muutosta muun muassa yritysten toimialan ja liikevaihdon suhteen. Kiinnostavasti havaitsimme, että yritysten ja someyleisön kielenkäytön keskinäinen samanlaisuus korreloi yritysten julkaisujen saaman kommenttimäärän kanssa. Tämä viittaisi siihen, että samanlaisuusmittari saattaa kuvata käytetyn kielen yhteneväisyyden lisäksi myös keskustelun volyymia sosiaalisessa mediassa.

Eri sosiaalisen median dataan perustuvien mittareiden välinen “työnjako” vaikuttaisi olevan yksi merkittävä tekijä ilmiöiden ennusteiden arvioissa. Ennusteen luotettavuuden arvioinnissa on tärkeää tietää, mitä ilmiön puolia eri mittarit mittaavat. Erillisiä mittareita käytettäessä olisi hyvä varmistua, että ilmiön eri puolia mittaavat pisteytykset eivät riipu keskenään samoista tekijöistä, kuten esimerkiksi keskustelun aktiivisuudesta. Näin mittareiden keskinäisen tärkeyden tai painotuksen arviointi selkeytyy ennustetta muodostaessa.

Underhoodin mittareiden keskinäiset painotukset ovat viime päivinä nousseet esille myös Aamulehden mainemittarin antamien kuntavaaliennusteiden yhteydessä. Mittarin ennusteet eivät lopulta vastanneet kuntavaalitulosta Tampereella. Aamulehdessä tämän arvioitiin johtuvan ehdokkaiden suuresta määrästä ja suhteellisesta vaalitavasta, jotka vaikeuttivat mainemittarin antamien lukujen tulkintaa. Underhoodin mukaan mittari taas olisi antanut tarkemman tuloksen, jos Facebook-tykkääjien määrää olisi painotettu nykyistä enemmän.

Keskeisellä sijalla tässäkin tapauksessa on kysymys: minkä ehtojen vallitessa voimme pitää sosiaalisen median suosiota luotettavana ennustajana vaalitulokselle? Underhoodin mainemittarin antamat ennusteet eri ilmiöistä – olivat ne sitten onnistuneita tai eivät – tuottavatkin hyödyllistä aineistoa, jonka avulla tätä ongelmaa voidaan tutkia.