Sl√§m√§rit ja superk√§ytt√§j√§t: ihmeellinen Internet tutkijan ty√∂p√∂yd√§ll√§

 

https://www.flickr.com/photos/meddygarnet/8346190491/
(cc) Morgan @Flickr

Smarter Social Media Analytics -tutkimushankkeessa sovellamme ja kehit√§mme erilaisia koneoppimiseen pohjautuvia menetelmi√§ sosiaalisen median tekstisis√§lt√∂jen analysointiin. Fiksumpi¬† analyysi kuitenkin vaatii algoritmien rinnalle ihmisilm√§√§ ‚Äď v√§hint√§√§nkin kehitysvaiheessa.

Olen lukenut eilen ja tänään  SSMA-hankkeemme aineistosta läpi parintuhannen viestin otoksen, jossa viestit koskevat kasvissyöntiä tavalla tai toisella. Otos liittyy koko aineistosta tehtyyn aihemallinnukseen, jossa noin puolen miljoonan viestin massasta on ohjaamattoman koneoppimisen avulla erotettu erilaisia topiikkeja tai teemoja. Mallinnuksen syötteenä skripti antaa kasan perusmuotoistettuja sanalistoja, jotka kuvaavat näitä erilaisia aiheita. Lopulta kuitenkin ainoa tapa varmistaa, että tehty analyysi toimii kuten pitää, on ihmisvoimin tarkistaa mistä topiikeissa oikeastaan on kysymys. Tämä tapahtuu esimerkkiviestejä tarkistamalla.

Tarkistuskeikka on pieni matka yhä vain ihmeelliseen Internetiin. Sosiaalisen median tutkimuksen parasta antia ovat usein juuri näkymät vuorovaikutuksen maailmoihin, joita ihmiset verkossa elävät ja tuottavat mikrotasolla. Tässä kaksi hienoa esimerkkiä kasvisruokakeskusteluista.

**

Viestejä läpikäydessä olen kohdannut kymmeniä erilaisia virtuaalislämäreitä. Omassa nuoruudessani slämäri oli vihko, jossa jokaisella sivulla oli eri kysymys ja vastaukset kirjattiin tietyllä symbolilla tai anonyymisti. Nykypäivän slämäri on keskustelupalstalla kiertävä lista numeroituja kysymyksiä, johon kukin kirjoittaja vastaa, tai lista [ ] väittämiä, joista [x] rastitaan kirjoittajaan sopivat kohdat. Arvioin kirjoittajien olevan enimmäkseen melko nuoria.

Tällaiset memeettiset sisällöt ovat toistuvia, mutta kuitenkin niin monipuolisia tekstimuotoja, ettei sanojen yhdessä esiintymisen perusteella aiheita luokitteleva algoritmi osaa niitä niputtaa. Virtuaalislämäreissä kuitenkin kiertää kasvisyöntiä koskevia kysymyksiä, joiden vuoksi kaikki nuo tuhannet viestit näkyvät jokaisessa kasvissyönti-sanalla tehdyssä haussa tai tietyllä sanalla piirretyissä trendikuvaajissa. Toki ne osaltaan trendistä kertovatkin; kasvissyönti puhututtaa.

Toinen ihmettelyn aihe oli aihemallinnuksessa erästä topiikkia kuvaava sana, joka ei ollut mikään suomen kielen tunnistettava sana. Pienen selvittelyn jälkeen paljastui, että kyseessä on yksi Suomi24-foorumin superaktiivinen käyttäjä, joka kirjoittaa palstalle joka päivä keskimäärin kolmetoista viestiä päivässä.

Viestimäärä on ilmeisen tarpeeksi, että saa aikaan oman aiheen aihemallinnuksessa, kun muut käyttäjät mainitsevat kyseisen nimimerkin tarpeeksi usein. Selvästi siis onnistunut keskustelunherättäjä ja oman mikroyleisönsä julkkis, jonka viesteillä voi olla suurikin vaikutus keskustelujen aihepiiriin.

**

Molemmat esimerkit ovat sellaisia, joita on hankala automaattisesti tekstin seasta erottaa ilman laadullista tarkastelua, tai vähintäänkin sen tekeminen vaatisi melkoisia tapauskohtaisia virityksiä koodiin. Viritykset taas ovat varsinkin tuotantokäytössä aika hankalia ja toisaalta tekevät analyysista prosessin, jonka toimintaperiaatteita on vaikea ymmärtää ja tuloksia tulkita.

Silti ne ovat aika oleellisia mikrotason havaintoja siitä dynamiikasta, jolla vuorovaikutus verkossa muodostuu.

Kohti fiksumpaa keskustelujen mallinnusta siis pyritään, mutta todellisuus on aina vaan analytiikkaa ihmeellisempää. Se on jotenkin lohdullista.

N√§in laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Jukka Huhtamäki & Salla-Maaria Laaksonen

Sosiaalisen median laskennallinen analytiikka perustuu piirteisiin (engl. feature). Piirteellä viitataan sosiaalisen median toimijoiden ja heidän tuottamien sisältöjensä ominaisuuksiin. Twitter-käyttäjällä on esimerkiksi tietty määrä seuraajia ja seurattavia ja twiiteissä käytetään aihetunnisteita. Valtaosa analytiikasta nojautuu tällä hetkellä helposti mitattaviin, numeerisiin ominaisuuksiin, kuten tykkäysten, retweettausten tai seuraajien määrään Twitterissä tai suorista mittauksista johdettuihin summalukuihin, kuten Facebookin engagement tai impressions.

Modernit laskennalliset keinot mahdollistavat jalostetumpaakin piirreanalyysia. Twiittien ja muiden tekstisis√§lt√∂jen tunnes√§vyn eli sentimentin analyysi on esimerkki analytiikan keinoin tuotetusta jalostetusta piirteest√§. Verkostoanalyysill√§ voidaan tuottaa piirteit√§ toimijoiden rakenteellisesta sijainnista verkostokokonaisuudessa. Vastaavasti esimerkiksi Instagram-kuvista voidaan tuottaa piirteit√§ ‚ÄĒ onko kuvassa henkil√∂, mink√§lainen tausta on, paistaako aurinko?

Piirteiden olennaisin hyöty on se, että ne jalostavat laadullista tietoa laskennalliseksi. Piirteiden avulla voidaan sekä tuottaa tutkittua tietoa syy-seuraussuhteista että opettaa koneoppimisen keinoin algoritmeja tunnistamaan kiinnostavia ilmiöitä. Niitä voivat olla esimerkiksi uuden trendi-ilmiön nousu, muutos asiakkaiden suhtautumisessa yritykseen tai jopa poliittinen liikehdintä. Näin isot ja abstraktit ilmiöt käytännössä rakentuvat jonkinlaisen piirteiden yhdistelmän päälle: anonyymien kirjoittajien määrä kasvaa, käytettyjen hashtagien jakauma pienenee, tai vaikkapa keskusteluissa kehittyy aiemmin tuntematon sana tai aihepiiri.

Mitä twiitistä saa irti?

Yksinkertaisimmillaan viestien analyysi keskittyy tiettyihin sanoihin ja käsitteisiin, joita voidaan palauttaa perusmuotoon ja tarkkailla esimerkiksi tietyn termin esiintymistä aineistossa ajan yli. Vielä yksinkertaisempaa on seurata esimerkiksi täsmällisesti merkittyjä hashtageja.

Mutta mitä muuta viesteistä saa irti kuin sanoja? Syvällisempi piirteisiin keskittyvä lähestymistapa on esimerkiksi tarkastella viestin sävyjä. Esimerkiksi Mike Thelwallin kehittämä SentiStrength -sentimenttianalyysikirjasto tulkitsee kirjoittajan suomenkielisen olevan sävyltään positiivinen:

sentistrenght-sallantwiitti

Presidentti Sauli Niinistön englanninkielinen twiitti saa vielä positiivisemman arvion:

sentistrenght-niinistontwiitti

Kuvan piirteiden analyysi on jo hitusen monimutkaisempaa, mutta sekin onnistuu. Microsoftin Computer Vision API tunnistaa, että Niinistön twiittaamassa kuvassa esiintyy varmasti ihmisiä, 86% todennäköisyydellä he seisovat ja 50% todennäköisyydellä poseeraavat. Tämän syvällisemmäksi menevien tulkintojen tekeminen on kuitenkin jo vaikeaa: koneen olisi melkoisen mahdotonta tulkita esimerkiksi taustalla näkyvän vartijan mahdollista silmien pyörittelyä, vaikka tällainen ironinen viesti onkin ihmistulkitsijalle melko selkeä.

niinistontwiitti

Mitä hyötyä piirteiden tunnistamisesta on?

Piirteiden tunnistamisen hy√∂dynt√§misess√§ on syyt√§ erotella eri k√§ytt√∂tarkoitukset. Tutkimusk√§yt√∂ss√§ on usein t√§rke√§√§ yksil√∂id√§ tarkasti piirteet ja todistaa niiden yhteys tutkittavaan ilmi√∂√∂n tilastollisesti. Monessa k√§ytt√∂tarpeessa kuitenkin riitt√§√§, jos suurin osa aineistosta osuu kohdalleen tai jos automatiikalla saadaan edes pienennetty√§ manuaalista ty√∂t√§ ‚Äď esimerkiksi keskustelupalstojen moderoinnissa tai asiakaspoistuma-analyysiss√§.

Asiakaspoistuma-analyysiss√§ toteutuneista poistumista ker√§t√§√§n opetusaineisto, jossa piirteit√§ k√§ytet√§√§n esimerkiksi asiakkaan br√§ndiin liittyvien viestien tunnistamiseen ja luokittelemiseen vaikkapa tunnes√§vyn perusteella. Analyysin tavoitteena on, ett√§ sosiaalisen median datan perusteella saadaan esimerkiksi tunnistettua sopimuksensa pian irtisanova asiakas. Ollakseen uskottavaa, t√§llaisen tunnistuksenkin tulisi pohjautua mahdollisimman tarkasti todennettuun ja eri konteksteissa toistettuun yhteyteen. Ylip√§√§ns√§ on hyv√§ muistaa ettei mik√§√§n automaattinen luokittelu p√§√§se sadan prosentin tarkkuuteen ‚Äď ei edes ihmisten tekem√§.

Kentän kehittymistä hidastaakin myös koneoppimisen kontekstisidonnaisuus: esimerkiksi vihapuhetta tunnistava luokittelija osaa tunnistaa puheen vain sillä kielellä ja siinä kontekstissa, mihin se opetettu. Valtaosa koneoppimisesta onkin ohjattua koneoppimista, jossa koulutusmateriaaleina käytetään ihmisten luokittelemia esimerkkidatasettejä. Siksi opetusdatasetit ovat tekoälyajan tärkein resurssi.

Mitä tulevaisuudessa?

Koneoppiminen on elimellinen osa piirteisiin perustuvaa someanalytiikkaa. Regressioanalyysi, luokittelu ja ryvästäminen mahdollistavat analytiikan eri vaiheet kartoittavasta kuvailevaan ja ennustavasta ohjaavaan. Tällä hetkellä erityisesti konenäköön liittyvä koneoppimisen tutkimus keskittyy syväoppimiseen (katso esimerkiksi Tuomo Hiippalan palkittu tutkimus sotilasajoneuvojen tunnistamisesta sosiaalisen median kuva-aineistoista), mutta myös syväoppimiseen perustuvissa tekstiaineiston luokittelusovelluksissa on otettu merkittäviä askeleita (Kipf, 2016).

Koneoppimismallien ennustuskyky on parantunut merkitt√§v√§sti, mutta mallit ovat yh√§ mustia laatikoita ‚ÄĒ mallin yksityiskohdat j√§√§v√§t usein ainoastaan koneen tietoon tai eiv√§t avaudu ihmistulkitsijalle. T√§st√§ syyst√§ onkin kiinnostavaa seurata, miten syv√§oppiminen ja muut edistyneet koneoppimismenetelm√§t saadaan parhaalla tavalla valjastettua sosiaalisen median analytiikan tueksi.

Lisälukemista:


Teksti on tuotettu DEEVAРja SSMA-tutkimushankkeiden yhteistyössä.

Kestävämpiä digitalisia ratkaisuja verkostoitumiseen ja yhteistyökumppanien valintaan?

Rajapinta.co:n kuukausitapaaminen Tampereella 29.9. vahvisti heikkoja siteitä paikallisiin tutkijoihin. Poimintana tapaamisesta, seuraavassa tiivistelmä järjestäjien tutkimusagendasta, joka paitsi sijoittuu teknologian ja yhteiskunnan rajapintaan myös demonstroi usean tieteenalan mielenkiintoista yhteistyötä. Agenda liittyy Thomas Olssonin (ihminen-teknologia vuorovaikutus), Jukka Huhtamäen (verkostoanalytiikka ja datatiede) ja Hannu Kärkkäisen (tietotyö ja arvonluonti) COBWEB-akatemiahankkeeseen sekä Big Match Tekes-hankkeeseen.

Ihmisten v√§list√§ sosiaalista sovittamista (engl. social matching tai matchmaking) tapahtuu ty√∂el√§m√§ss√§ mm. rekrytointiprosesseissa, tiimien muodostamisessa ja verkostoitumisessa. Sopivan henkil√∂n, yhteisty√∂kumppanin tai tiimin tunnistaminen ja valinta viev√§t paljon aikaa ja intuitiiviset “m√§ts√§√§misen” k√§yt√§nn√∂t ovat alttiita inhimillisille vinoumille. Esim. verkostointitapahtumissa on yleist√§, ett√§ samankaltaiset ihmiset vet√§v√§t puoleensa toisiaan; t√§llainen homofilia on kuitenkin tietoty√∂n tuottavuudelle vahingollista. Uskomme, ett√§ rohkaisemalla ihmisi√§ kohtaamaan erilaisista taustoista tulevia, eri yhteis√∂jen j√§seni√§ voidaan edist√§√§ tietoty√∂ss√§ olennaista ideoiden ristiinp√∂lyttymist√§ ja monin√§k√∂kulmaista, verkottunutta arvonluontia.

Tavoitteenamme on suunnitella ja toteuttaa sosiaaliseen massadataan, verkostoanalytiikkaan ja koneoppimiseen perustuvaa tietoteknologiaa, joka mahdollistaa digitaalisia tapoja sovittaa, ryhm√§ytt√§√§ ja t√∂rm√§ytt√§√§ ihmisi√§ ty√∂el√§m√§ss√§. “Ty√∂el√§m√§n Tinder” on mainio vertauskuva, mutta parinvalinnan periaatteet ovat ty√∂el√§m√§ss√§ aivan erilaiset kuin yksityisel√§m√§ss√§. Tutkimuksemme perusl√§ht√∂kohta on, ett√§ datapohjaisilla tavoilla voidaan tunnistaa otollisia, toisiaan sopivasti t√§ydent√§vi√§ osaajakombinaatioita ja siten tuottaa positiivista sosiaalista serendipiteetti√§. Tavoite voisi konkretisoitua esim. diversiteetti√§ lis√§√§vin√§ henkil√∂suositteluj√§rjestelmin√§ (diversity-enhancing people recommender systems) tai uudenlaisina yhteisty√∂kumppaneiden haku- tai selausj√§rjestelmin√§.

Sosiaalinen massadata eli “Big Social Data” (esim. sosiaalisen median sis√§ll√∂t ja profiilit, portfoliot, verkostot) voivat rikastaa palvelujen kautta syntyv√§√§ kuvaa kustakin k√§ytt√§j√§st√§. Nykyiset profiilit esim. ty√∂nhaussa ovat yleens√§ k√§ytt√§j√§n itse laatimia ja siksi kovin staattisia ja sis√§ll√∂lt√§√§n rajoittuneita. Esim. twiitit voivat kertoa paljon henkil√∂n t√§m√§n hetken kiinnostuksen kohteista ja tulevaisuuden visioista, kun taas esim. verkossa olevat ammatilliset julkaisut ja esitykset voivat kertoa henkil√∂n yksityiskohtaisesta osaamisesta. Tunnistamalla relevantteja yhteisi√§ teemoja ja komplementaarisia osaamisia esim. tapahtuman osallistujien v√§lill√§ voidaan automaattisesti tunnistaa potentiaalisia pareja, joiden kannattaisi keskustella lis√§√§. Sosiaalisten verkostojen analyysill√§ voidaan paitsi arvioida henkil√∂iden keskin√§ist√§ suhdetta ja verkoston kokonaisrakennetta my√∂s tunnistaa yhteisi√§ kontakteja ja ns. heikkoja siteit√§ (weak ties).

Tarkoituksenamme on lisäksi tarjota positiivinen skenaario sosiaalisen median datan käytölle ja digitalisaatiolle yleensä. Ehkäpä tällaisten kaikkia hyödyttävien palvelujen kehittäminen hälventää ihmisten yksityisyydensuojan menettämisen pelkoa sekä motivoi yrityksiä avaamaan data-aineistojaan laajemmin hyödynnettäviksi?

Uusien palveluiden ideointi ja utopististen tulevaisuuskuvien maalailu on kuitenkin huomattavasti helpompaa kuin niiden toteuttaminen. Data-keskeisi√§ haasteita ovat mm. sopivan datan saatavuus eri palvelujen ja palveluntarjoajien siiloista, datan ker√§√§misen ja analysoinnin yksityisyyteen liittyv√§t ja muut eettiset haasteet sek√§ massadatan kehittym√§tt√∂m√§t analyysi- ja visualisointimenetelm√§t. Sovittamisen sosiaalipsykologiset haasteet ovat jopa viel√§ monimutkaisempia: “sopivan” henkil√∂n tai organisaation tunnistaminen vaatii ymm√§rryst√§ mm. sovitettavien tahojen mahdollisista yhteisty√∂tarpeista, ja jokaisella sovittamistilanteella on uniikki tavoite ja erityispiirteit√§, jotka pit√§isi ottaa huomioon j√§rjestelm√§n p√§√§t√∂ksenteossa. Digitaalisten sis√§lt√∂jen suositteluj√§rjestelmist√§ tuttuja menetelmi√§ (esim. social filtering) ei siis voida suoraan hy√∂dynt√§√§.

Kokonaisuuteen vaikuttavat myös käyttäjäkokemukselliset erityispiirteet: miten saada käyttäjä luottamaan teknologian tekemiin päätelmiin ja suosituksiin henkilöistä? Miten saada ihmiset delegoimaan osan päätäntävallastaan ja toimijuudestaan teknologialle, varsinkin näin perustavanlaatuisen inhimillisellä sovellusalueella? Miten sinä kokisit sen, että kännykkäsi yhtäkkiä piippaa kertoakseen, että joku tuntematon, mutta algoritmin mielestä todella relevantti tyyppi on tulossa samaan tapahtumaan ja että teidän kannattaisi tavata?