Smarter Social Media Analytics Underhoodilla

IMG_20170403_161015Vietimme viikon 3.-7.4. SSMA-projektin tutkijaporukkalla startupyritys Hupparihörhön luona. Kenttätyöviikon tarkoituksena oli tutustua Hupparihörhön kehittämään Underhood-palveluun, joka mittaa yritysten mainetta sosiaalisen median dataan perustuen.

Underhood on ollut lähikuukausina uutisissa toteutettuaan Aamulehden kanssa kuntavaalitulosta Tampereella ennustavan mainemittarin. SSMA-projektin puolesta olemme kiinnostuneita tutkimaan, miten sosiaalisen median datalla voidaan mitata ja ennustaa yhteiskunnallisia ilmiöitä. Viikko Underhoodilla kuntavaalien alla tarjosi erinomaisen mahdollisuuden seurata konkreettisen tapauksen ennustamista somedatasta perehtyen samalla Underhoodilaisten näkemyksiin data-analytiikan mahdollisuuksista.

Alkuviikon aikana tutustuimme Underhoodin somedatasta yrityksille laskemaan mainepisteytykseen, joka perustuu kolmelle eri mittarinarvolle. Ensinnäkin Underhood seuraa yritysten näkyvyyttä, joka lasketaan yrityksen Facebook-sivun saamien tykkäysten ja Twitter-seuraajien määristä sekä Facebookin antamasta buzz-arvosta. Toiseksi Underhood mittaa yritysten dialogia someyleisön kanssa, joka määrittyy yrityksen keskimääräisen julkaisumäärän ja julkaisujen saamien kommenttien, tykkäysten sekä jakojen perusteella. Lisäksi dialogimittarin arvoon vaikuttaa yrityksen vastausaste saamiinsa kommentteihin. Kolmanneksi mainepisteytykseen vaikuttavat yrityksen ja yleisön käyttämien sanojen samanlaisuus ja sentimenttianalyysilla saatu yleisön kommenttien sävy. Näkyvyyttä, dialogia ja samanlaisuutta mittaavat pisteet skaalataan Underhoodissa asteikolle 0-10. Näiden pisteiden keskiarvosta lasketaan sitten varsinainen mainepisteytys, jonka arvo on myös asteikolla 0-10.

Underhood-pisteytyksen ja sen tekijöiden tarkastelussa meitä kiinnostaviksi kysymyksiksi nousivat eri mittareiden väliset suhteet ja mittauskohteet: mitä oikeastaan mitataan, kun kerätään dataa esimerkiksi yritysten ja Facebook-tykkääjien yhteisesti käyttämien sanojen määristä? Millä perustein voisimme ajatella, että somedatan pohjalta määritetyt mittarit olisivat luotettava ennustaja ilmiöille, joita koskeva uutisointi ja keskustelu eivät rajoitu sosiaaliseen mediaan?

Underhood-pisteytys on aikaisemmin ennustanut oikein esimerkiksi semifinalistien valinnan Ison-Britannian X-Factor -ohjelmassa, mutta kilpailun voittajan ennuste sen sijaan oli väärä. Yksi selitys tälle on, että ennusteen sotki kansainvälisen sosiaalisen median osoittama kiinnostus: X-Factor UK:ssa äänestäminen oli mahdollista ainoastaan Isossa-Britanniassa, mutta Underhood-pisteytys heijasteli finalistien suosiota kansainvälisellä tasolla. Tämä on esimerkki tapauksesta, jossa sosiaalisen median dataan perustuvat mittarit mittaavat ennusteen kohteesta (pärjääminen Ison-Britannian X-Factorissa) erillistä ilmiötä (suosio kansainvälisessä sosiaalisessa mediassa).

Saimme käyttöömme Underhoodin pisteytyksen perustana olevan datan, joka sisälsi eri mittareiden arvot ja näihin vaikuttavat tekijät päiväkohtaisesti tallennettuina elokuulta 2016 alkaen (dataa yhteensä 3958 yritykseltä ja poliitikolta). Viikon aikana tutkimme datan eri muuttujien riippuvuutta toisistaan ja vertasimme eri mittarinarvojen muutosta muun muassa yritysten toimialan ja liikevaihdon suhteen. Kiinnostavasti havaitsimme, että yritysten ja someyleisön kielenkäytön keskinäinen samanlaisuus korreloi yritysten julkaisujen saaman kommenttimäärän kanssa. Tämä viittaisi siihen, että samanlaisuusmittari saattaa kuvata käytetyn kielen yhteneväisyyden lisäksi myös keskustelun volyymia sosiaalisessa mediassa.

Eri sosiaalisen median dataan perustuvien mittareiden välinen “työnjako” vaikuttaisi olevan yksi merkittävä tekijä ilmiöiden ennusteiden arvioissa. Ennusteen luotettavuuden arvioinnissa on tärkeää tietää, mitä ilmiön puolia eri mittarit mittaavat. Erillisiä mittareita käytettäessä olisi hyvä varmistua, että ilmiön eri puolia mittaavat pisteytykset eivät riipu keskenään samoista tekijöistä, kuten esimerkiksi keskustelun aktiivisuudesta. Näin mittareiden keskinäisen tärkeyden tai painotuksen arviointi selkeytyy ennustetta muodostaessa.

Underhoodin mittareiden keskinäiset painotukset ovat viime päivinä nousseet esille myös Aamulehden mainemittarin antamien kuntavaaliennusteiden yhteydessä. Mittarin ennusteet eivät lopulta vastanneet kuntavaalitulosta Tampereella. Aamulehdessä tämän arvioitiin johtuvan ehdokkaiden suuresta määrästä ja suhteellisesta vaalitavasta, jotka vaikeuttivat mainemittarin antamien lukujen tulkintaa. Underhoodin mukaan mittari taas olisi antanut tarkemman tuloksen, jos Facebook-tykkääjien määrää olisi painotettu nykyistä enemmän.

Keskeisellä sijalla tässäkin tapauksessa on kysymys: minkä ehtojen vallitessa voimme pitää sosiaalisen median suosiota luotettavana ennustajana vaalitulokselle? Underhoodin mainemittarin antamat ennusteet eri ilmiöistä – olivat ne sitten onnistuneita tai eivät – tuottavatkin hyödyllistä aineistoa, jonka avulla tätä ongelmaa voidaan tutkia.

Smarter Social Media Analytics -hanke starttaa joulukuussa

4601859272_4228421089_z
Kuva: Matt Wynn

Saimme viime viikolla virallisesti tiedon, että Tekes rahoittaa projektiamme Smarter Social Media Analytics, jossa yhdessä yrityskumppaneiden kanssa lähemme nimen mukaisesti rakentamaan fiksumpaa sosiaalisen median analytiikkaa – tavoitteena tutkia ja kehittää uusia menetelmiä trendien ja ilmiöiden tunnistamiseen laskennallisesti sosiaalisen median tekstimassoista.

Hankkeen toteuttavat Kuluttajatutkimuskeskus KTK (HY) ja Tietotekniikan tutkimuslaitos HIIT (HY), ja rajapintalaisista mukana projektissa virallisesti ainakin Salla, Matti ja Arto. Alla hankkeen tiivis kuvaus tutkimussuunnitelmasta. Huraa!

**

Sosiaalisessa mediassa vahvistetaan ja rakennetaan yrityksiin, organisaatioihin ja brändeihin liittyviä käsityksiä ja jaetaan niihin liittyviä kokemuksia. Digitaalinen mediaympäristö tarjoaa mahdollisuuden seurata ja tutkia eri toimijoihin kohdistuvia arvioita, arvosteluja, kokemuksia ja tuntemuksia laskennallisesti. Tässä hankkeessa rakennamme isojen verkkoaineistojen avulla menetelmiä keskusteluissa syntyvien ilmiöiden ja trendien automaattiseen, reaaliaikaiseen tunnistamiseen.

Käytössämme ovat satojen miljoonien viestien laajuiset sosiaalisen median aineistot: Suomi24-verkkoyhteisön koko keskusteluaineisto, Futusome Oy:n keräämä satojen miljoonien viestien kokoinen aineisto suomenkielistä sisältöä eri sosiaalisen median palveluista. Näiden lisäksi hyödynnämme Taloustutkimus Oy:n keräämiä edustavia kyselytutkimusaineistoja ja isoja media-arkistoja. Näitä aineistoja rinnastamalla pystymme rakentamaan ja validoimaan algoritmeja, joiden avulla nousevia trendejä ja ilmiöitä on mahdollista koneoppimisen avulla tunnistaa verkkokeskusteluista. Laskennallisen data-analyysin ja sitä tukevan laadullisen analyysin ohella hankkeessa kerätään laadullista havainnointi- ja haastatteluaineistoa toimintatutkimuksellista näkökulmaa käyttäen.

Tutkimuskokonaisuus limittyy osaksi sekä laskennallisen yhteiskuntatieteen kehittymistä Suomessa että sosiaalisen mediaa hyödyntävien yritysten (ns. asiakasyritykset) diagnostisten valmiuksien parantamiseen tähtäävää valmentamista. Tutkimuksellinen näkökulma varmistaa myös analytiikan sikäli viisaamman kehittämisen, että analytiikka huomioi sosiaalisen median aineistojen käyttöön liittyvät eettiset ja taloudelliset näkökulmat myös tavallisten käyttäjien näkökulmasta.

Helsingin yliopiston Kuluttajatutkimuskeskuksen ja Tietotekniikan tutkimuslaitos HIIT:in yhteistyötahoina hankkeen valmistelussa ovat olleet Aller Media Oy, Taloustutkimus Oy ja Futusome Oy (ns. analytiikka- ja aineistoyritykset jotka osallistuvat hankkeeseen työpanoksellaan ja aineistoilla). Lisäksi konsortiossa mukana ovat pienemmät kasvuvaiheen analytiikkayritykset (Underhood.co, Sometrik, Leiki, Arvo Partners, myös Futusome), jotka osallistuvat hankkeeseen työpanoksellaan ja luovuttamalla tutkimusaineistoja tutkijoiden käyttöön, sekä isommat asiakasyritykset (Atria Suomi Oyj, Ilmarinen Keskinäinen Vakuutusyhtiö Oy, SOK, TeliaSonera Oyj, myös Aller ja Taloustutkimus), jotka osallistuvat hankkeeseen rahapanoksella.

Trump ja sosiaalisen median analytiikka

screen-shot-2016-11-14-at-17-34-50
Screenshot from Tagboard.

Yhdysvaltain presidentinvaalit ja sosiaalisen median osuus niissä ovat herättäneet viime päivinä paljon keskustelua. Debatti kiteytyy kahden teeman ympärille. Ensinnäkin, mitä sosiaalisen median kuplautumisesta kertoo se, että Donald Trumpin voitto tuli monelle yllätyksenä. Toisekseen, olisiko Trumpin voiton voinut ennustaa sosiaalista mediaa seuraamalla?

Avaan tässä postauksessa jälkimmäistä kysymystä eli sosiaalisen median roolia ja analytiikkaa vaalivoiton ennustuksessa. YLE julkaisi tästä vastikään jutun, jossa oli hyödynnetty Ezyinsightsin analytiikkaa, ja johon itsekin kommentoin. Puhuin samasta tematiikasta myös viime maaliskuussa valtiotieteellisessä tiedekunnassa järjestetyssä USA:n vaalit -luentosarjassa sekä Helsingin Sanomien toimittajan kanssa myöhemmin toukokuussa.

Jo maaliskuussa oli selvää, että millä tahansa sosiaalisen median mittarilla Trump on vaalien voittaja – vaikka silloin mukana kisassa olivat vielä kaikki esivaaliehdokkaat. Kuten Ezyinsightsin analytiikka osoittaa, sama näkyi monella mittarilla myös vaalisyksynä.

Sosiaalisen median analytiikan ongelma on kuitenkin se, että se antaa helposti kivoja numeroita, joiden päälle voi perustaa väittämiä. Tämä pätee erityisesti palveluiden kuten Facebookin itsensä antamiin tietoihin.

Facebook mittaa viesteihin “sitoutumista” (engagement, termi ei oikein käänny kunnolla suomeksi), joka on käytännössä kaikkien sen viestin aiheuttamien reaktioiden (kommentit, tykkäykset, jaot) yhteissumma. Twitter puolestaan kertoo impressions-luvun, joka mittaa twiitin potentiaalisesti nähneiden silmäparien määrää.

Molemmat ovat ongelmallisia mittareina. Twitterin impressioluku kertoo suurimman mahdollisen yleisön määrän twiitin saamilla reaktioilla, mutta ei mitään todellisista lukijoista. Facebookin “sitoutuminen” puolestaan on jonkinlainen kiinnostuksen mittari, mutta lopulta vain numero, jolla ei ole mitään laadullista sisältöä.

Puhtaan määrällisistä mittareista on kuitenkaan vaikea sanoa mitään yleisöjen suhteen tai kiinnostuksen laadusta. Todennäköisesti monet ovat seuranneet Trumpia myös mielenkiinnosta tai kauhistuksesta – hän on ollut melkoinen mediailmiö viimeisen ainakin vuoden ajan sekä perinteisessä että sosiaalisessa mediassa. Moni on varmasti seurannut ja jakanut Trumpin tekemisiä myös kauhistellakseen hänen lausuntojaan.

Emme siis voi lukujen perusteella sanoa mitään niistä tulkinnoista tai syistä, miksi ihmiset tiettyä videota tai päivitystä katsovat ja klikkaavat.

Juuri tästä syystä menestystä sosiaalisessa mediassa on aika vaikea määritellä. Seuraajia ja tykkääjiä on, mutta heidän motiiveistaan emme tiedä mitään. Toimijan näkyvyyteen jokainen kriittinenkin klikki kuitenkin väistämättä vaikuttaa, sillä sosiaalisen median julkisuus suosii suositumpaa ja nostaa reaktioita herättäneitä viestejä ja uutisia ihmisten uutisvirtoihin.

Ongelmallista on myös se, että mikään sosiaalisen median alusta ei ole edustava otos väestöstä. Varsinkaan jollakin alustalla aktiivisesti toimivien otos ei ole edustava, vaan vinoutunut vähintäänkin poliittisen kiinnostuksen tai teknologisten taitojen perusteella. Esimerkiksi Yhdysvalloissa Facebookia käyttää 68% aikuisväestöstä, mutta valtaosa heistä on todennäköisesti epäaktiivisia.

Tutkimuksissa sosiaalisen median metriikoiden ja äänestystulosten välistä yhteyttä ei olla saatu luotettavasti osoitettua. Tulevaisuudessa tilanne saattaa parantua erilaisten tekstinlouhinnan menetelmien (esim. sentimenttianalyysi) yleistyessä ja arkipäiväistyessä.

Sitä odotellessa vaikuttaa tällä kertaa siltä, että sosiaalinen media oli hiukan enemmän oikeassa kuin gallupit, mutta yllämainituista syistä rohkenen väittää, että se kertoo enemmän sattumasta ja Trumpista hybridinä mediailmiönä. Kuten Hesarille totesin: “Näissä vaaleissa Trump on täydellinen klikkisampo ja tämän ajan mediamagneetti. Hän suoltaa suoraan twiiteiksi ja klikkiotsikoiksi sopivia iskulauseita, ja sopii siksi mediakoneiston tarpeisiin erittäin hyvin.”

Yhteensä opimme sen, että poliittinen todellisuus ja ihmisten käyttäytyminen on monimutkaisempaa kuin mitä sosiaalisen median analytiikka tai gallup-kyselyt osaavat selvittää. Onhan se myös jollakin tapaa lohdullista ainakin näin yhteiskuntatieteilijälle.

– –

ps. Laadullinen tutkija minussa uskoo, että Trumpin sosiaalisen median menestystä selittää yleisen mediailmiön lisäksi kaksi asiaa: taitavat retoriset keinot ja aitous (authenticity) tai ainakin aidolta vaikuttava, kansaan vetoava viestintä. Aitouden vetovoimaa on tutkittu goffmanlaisittain Internetin sosiaalipsykologiassa, myös politiikan ja kampanjoinnin kontekstissa.

pps. Trumpista ja sosiaalisesta mediasta huomenna aamulla juttua ainakin Huomenta Suomessa ja YLEn Ykkösaamussa, äänessä Digivaalit-projektin Mari Marttila!