Onko maailma erilainen riippuen siit√§ kenen teko√§ly sit√§ katselee?

Jokainen verkkomedian tutkija on varmasti havainnut, kuinka mediaympäristössä kuvilla on yhä suurempi merkitys. Melkein jokaisella on mukana vähintään yksi kamera jatkuvasti, jolla otetaan ja jaetaan kuvia arkipäivistä ja juhlista. Samoin uutisissa visuaalisuuden rooli on edelleen tärkeä Рteksti ilman kuvaa ei välttämättä vetoa lukijoihin samoin kuin aikaisemmin. Internetissä video- ja kuvamateriaalin määrä on kasvanut ja useat suositut palvelut, kuten TikTok sekä Instagram pohjautuvat suurimmalta osin audio-visuaaliseen materiaaliin.

Tämä luo yhteiskuntatieteen tutkijoille taas uusia haasteita. Olemme vasta oppimassa menetelmiä suurten teksiaineistojen analyysin, mutta maailma on ollut meitä nopeampi ja vaatii jälleen uusia näkökulmia ja menetelmiä asioiden ymmärtämiseen. Visuaalinen big data myös välttää tekstiaineistojen analyysin joitain haasteita ja esimerkiksi kuvien leviämistä voidaan seurata sosiaalisen median ryhmissä hyvinkin helposti jopa kansainvälisesti Рkieli ei muutu. Usein meitä kuitenkin kiinnostaa ymmärtää sisältöjä paremmin, esimerkiksi sisällön erittelyn kautta.

2019-11-10 16.16.00
Koneoppijan mielestä tämä kuva on: Daytime, Sky, City, Public Space, Human Settlement, Road, Residential Area, Urban Area, Asphalt, Metropolitan Area, Tree, Infrastructure, Park, Road Surface, Downtown, Architecture, Neighbourhood, Skyline, Real Estate, Thoroughfare, Building, Suburb, Urban Design, Street, Lane, Walkway, Cloud, Recreation, Plaza, Town Square, Sidewalk, Nonbuilding Structure.

Ei h√§t√§√§! Koneoppimisen, tai trendikk√§√§mmin teko√§lyn, avulla voimme automaattisesti sanoa, mit√§ kuvissa on. Se ei tietenk√§√§n ole t√§ysin tarkkaa, mutta ei se ole my√∂sk√§√§n t√§ysin satunnaista. Useat isot alustat ovatkin rakentaneet omia mallejaan kuvien automaattiseen tunnistamiseen sek√§ “tagaamiseen”, eli sis√§ll√∂n erotteluun. Palveluita l√∂ytyy niin Microsoftilta kuin Googlelta. Mutta! Mit√§ palvelua yhteiskuntatieteilij√§n kannattaisi k√§ytt√§√§, jotta tulokset olisivat mahdollisimman oikein? Toinen muotoilu t√§lle kysymykselle on: mit√§ eroja eri kuvatunnistuspalveluiden v√§lill√§ on?

Otin satunnaisen 150 kuvan ryhmän ja laitoin niissä olleet kuvat Microsoftin, Googlen, Amazonin ja IBMn kuvatunnistuspalveluihin. Olen juuri työstämässä tarkempaa analyysiä sekä menetelmistöä analyysipalveluiden välisten erojen tunnistamiseen, mutta tässä on alustava yleiskuva palveluista Рkuten näkyy, eroja siinä miten nämä 150 kuvaa nähdään tuntuu olevan.

Tule kuulemaan tarkempia alustavia tuloksia Digital Humanities Research Seminar-tapahtumaan 26.3. kello 16 Metsätalolle (Sali 10, Unioninkatu 40) Рsekä toki myöhemmin tänne blogiin tulevien päivitysten kautta. Esitys on englanniksi, mutta blogiin teksti tulee suomeksi.

N√§in laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Jukka Huhtamäki & Salla-Maaria Laaksonen

Sosiaalisen median laskennallinen analytiikka perustuu piirteisiin (engl. feature). Piirteellä viitataan sosiaalisen median toimijoiden ja heidän tuottamien sisältöjensä ominaisuuksiin. Twitter-käyttäjällä on esimerkiksi tietty määrä seuraajia ja seurattavia ja twiiteissä käytetään aihetunnisteita. Valtaosa analytiikasta nojautuu tällä hetkellä helposti mitattaviin, numeerisiin ominaisuuksiin, kuten tykkäysten, retweettausten tai seuraajien määrään Twitterissä tai suorista mittauksista johdettuihin summalukuihin, kuten Facebookin engagement tai impressions.

Modernit laskennalliset keinot mahdollistavat jalostetumpaakin piirreanalyysia. Twiittien ja muiden tekstisis√§lt√∂jen tunnes√§vyn eli sentimentin analyysi on esimerkki analytiikan keinoin tuotetusta jalostetusta piirteest√§. Verkostoanalyysill√§ voidaan tuottaa piirteit√§ toimijoiden rakenteellisesta sijainnista verkostokokonaisuudessa. Vastaavasti esimerkiksi Instagram-kuvista voidaan tuottaa piirteit√§ ‚ÄĒ onko kuvassa henkil√∂, mink√§lainen tausta on, paistaako aurinko?

Piirteiden olennaisin hyöty on se, että ne jalostavat laadullista tietoa laskennalliseksi. Piirteiden avulla voidaan sekä tuottaa tutkittua tietoa syy-seuraussuhteista että opettaa koneoppimisen keinoin algoritmeja tunnistamaan kiinnostavia ilmiöitä. Niitä voivat olla esimerkiksi uuden trendi-ilmiön nousu, muutos asiakkaiden suhtautumisessa yritykseen tai jopa poliittinen liikehdintä. Näin isot ja abstraktit ilmiöt käytännössä rakentuvat jonkinlaisen piirteiden yhdistelmän päälle: anonyymien kirjoittajien määrä kasvaa, käytettyjen hashtagien jakauma pienenee, tai vaikkapa keskusteluissa kehittyy aiemmin tuntematon sana tai aihepiiri.

Mitä twiitistä saa irti?

Yksinkertaisimmillaan viestien analyysi keskittyy tiettyihin sanoihin ja käsitteisiin, joita voidaan palauttaa perusmuotoon ja tarkkailla esimerkiksi tietyn termin esiintymistä aineistossa ajan yli. Vielä yksinkertaisempaa on seurata esimerkiksi täsmällisesti merkittyjä hashtageja.

Mutta mitä muuta viesteistä saa irti kuin sanoja? Syvällisempi piirteisiin keskittyvä lähestymistapa on esimerkiksi tarkastella viestin sävyjä. Esimerkiksi Mike Thelwallin kehittämä SentiStrength -sentimenttianalyysikirjasto tulkitsee kirjoittajan suomenkielisen olevan sävyltään positiivinen:

sentistrenght-sallantwiitti

Presidentti Sauli Niinistön englanninkielinen twiitti saa vielä positiivisemman arvion:

sentistrenght-niinistontwiitti

Kuvan piirteiden analyysi on jo hitusen monimutkaisempaa, mutta sekin onnistuu. Microsoftin Computer Vision API tunnistaa, että Niinistön twiittaamassa kuvassa esiintyy varmasti ihmisiä, 86% todennäköisyydellä he seisovat ja 50% todennäköisyydellä poseeraavat. Tämän syvällisemmäksi menevien tulkintojen tekeminen on kuitenkin jo vaikeaa: koneen olisi melkoisen mahdotonta tulkita esimerkiksi taustalla näkyvän vartijan mahdollista silmien pyörittelyä, vaikka tällainen ironinen viesti onkin ihmistulkitsijalle melko selkeä.

niinistontwiitti

Mitä hyötyä piirteiden tunnistamisesta on?

Piirteiden tunnistamisen hy√∂dynt√§misess√§ on syyt√§ erotella eri k√§ytt√∂tarkoitukset. Tutkimusk√§yt√∂ss√§ on usein t√§rke√§√§ yksil√∂id√§ tarkasti piirteet ja todistaa niiden yhteys tutkittavaan ilmi√∂√∂n tilastollisesti. Monessa k√§ytt√∂tarpeessa kuitenkin riitt√§√§, jos suurin osa aineistosta osuu kohdalleen tai jos automatiikalla saadaan edes pienennetty√§ manuaalista ty√∂t√§ ‚Äď esimerkiksi keskustelupalstojen moderoinnissa tai asiakaspoistuma-analyysiss√§.

Asiakaspoistuma-analyysiss√§ toteutuneista poistumista ker√§t√§√§n opetusaineisto, jossa piirteit√§ k√§ytet√§√§n esimerkiksi asiakkaan br√§ndiin liittyvien viestien tunnistamiseen ja luokittelemiseen vaikkapa tunnes√§vyn perusteella. Analyysin tavoitteena on, ett√§ sosiaalisen median datan perusteella saadaan esimerkiksi tunnistettua sopimuksensa pian irtisanova asiakas. Ollakseen uskottavaa, t√§llaisen tunnistuksenkin tulisi pohjautua mahdollisimman tarkasti todennettuun ja eri konteksteissa toistettuun yhteyteen. Ylip√§√§ns√§ on hyv√§ muistaa ettei mik√§√§n automaattinen luokittelu p√§√§se sadan prosentin tarkkuuteen ‚Äď ei edes ihmisten tekem√§.

Kentän kehittymistä hidastaakin myös koneoppimisen kontekstisidonnaisuus: esimerkiksi vihapuhetta tunnistava luokittelija osaa tunnistaa puheen vain sillä kielellä ja siinä kontekstissa, mihin se opetettu. Valtaosa koneoppimisesta onkin ohjattua koneoppimista, jossa koulutusmateriaaleina käytetään ihmisten luokittelemia esimerkkidatasettejä. Siksi opetusdatasetit ovat tekoälyajan tärkein resurssi.

Mitä tulevaisuudessa?

Koneoppiminen on elimellinen osa piirteisiin perustuvaa someanalytiikkaa. Regressioanalyysi, luokittelu ja ryvästäminen mahdollistavat analytiikan eri vaiheet kartoittavasta kuvailevaan ja ennustavasta ohjaavaan. Tällä hetkellä erityisesti konenäköön liittyvä koneoppimisen tutkimus keskittyy syväoppimiseen (katso esimerkiksi Tuomo Hiippalan palkittu tutkimus sotilasajoneuvojen tunnistamisesta sosiaalisen median kuva-aineistoista), mutta myös syväoppimiseen perustuvissa tekstiaineiston luokittelusovelluksissa on otettu merkittäviä askeleita (Kipf, 2016).

Koneoppimismallien ennustuskyky on parantunut merkitt√§v√§sti, mutta mallit ovat yh√§ mustia laatikoita ‚ÄĒ mallin yksityiskohdat j√§√§v√§t usein ainoastaan koneen tietoon tai eiv√§t avaudu ihmistulkitsijalle. T√§st√§ syyst√§ onkin kiinnostavaa seurata, miten syv√§oppiminen ja muut edistyneet koneoppimismenetelm√§t saadaan parhaalla tavalla valjastettua sosiaalisen median analytiikan tueksi.

Lisälukemista:


Teksti on tuotettu DEEVAРja SSMA-tutkimushankkeiden yhteistyössä.