Algorithmic Systems, Strategic Interaction, and Bureaucracy

What do algorithmic systems and bureaucracy have in common?

I gave on algorithmic systems, strategic interaction, and bureaucracy in the Making Sense of Algorithmic Systems symposium at the Annual Social Psychology Conference in Helsinki on November 18, 2017. The talk lays out early ideas in a domain that is (relatively) new for me. These have been developed in collaboration with Matti Nelimarkka, Jesse Haapoja, Juho Pääkkönen & others – but all mistakes are mine.

To accompany the slides above, here are the key ideas from the talk:

What might post-interaction HCI (Human–Computer Interaction) look like? This is a conceptual shift we are grappling with and trying to make sense of – focusing on direct and observable interaction between one individual and one device feels less and less sufficient (although those interactions, too, remain important). Inspired by Alex Taylor’s thoughts, I like to think of city bike systems as one example that pushes us to think about socio-technical systems and data in new ways.

The more we talk about algorithmic systems, the more we need to ask ourselves to be precise about how exactly they are different from socio-technical systems more broadly. Algorithms, data, artificial intelligence and machine learning are words I’ve heard awfully often this year — and there are problems with how they are used in public (and academic) conversations. There is lots of fear-mongering as well as moments when systems are narrated to hold more power and capabilities than they actually have etc.

One things that seems to be clear is that all things digital and the datafication of everything is attracting a lot of attention in a variety of fields – and critical researchers are already on it, too! There has been a proliferation of critical studies of algorithms and data over the past years. This reading list, collected by Nick Seaver and Tarleton Gillespie is one fantastic place to start from if you’d like to get a glimpse of what is going on. Moreover, we need to keep asking questions about what algorithms are and in what way(s) they are interesting. One important observation underlying the shift to talk about algorithmic systems rather than algorithms on their own is the fact that algorithms don’t exist in isolation. On this account, I recommend Algorithms and their Others, written by Paul Dourish.

Another source of inspiration for me has been this popular piece on the similarities between bureaucracy and algorithmic systems: Rule by Nobody. The analogy does not work 1:1, of course, but there is something to it. And this points to where I think social psychology has an opening to step in and speak up: our field has a lot of expertise on social interactions (also strategic ones) and organizations. These are needed in conversations about algorithmic systems.

For theoretical bases to work on algorithmic systems and strategic interaction, I recommend as a less known book by Erving Goffman, Strategic Interaction. It is a microsociological take of game theory! As I see it, there are (at least) two levels worth thinking about here: First, computer-mediated communication, including questions about how does social interaction play out in the context of algorithmic systems and how do individuals and groups use these systems in strategic ways in interacting with others? Second, human–computer interaction, with questions about how individuals and groups ”game the algorithm” and work around systems that are making it hard for them to accomplish their goals. Here, one might think about Uber drivers strategizing with one another (and against the company and its app) to make more money, but also about the kinds of workarounds that have long been observed as part of the ”normal” repertoire of how people make socio-technical systems work. Goffman’s work gives us tools to consider how individuals can interact with algorithmic systems (and with one another in the presence of these systems) in active, purposeful ways, rather than the dopes fooled by black boxes that popular accounts sometimes make us to be! But we need to be careful in considering what we can take from this work, focused on rich interactional settings (face-to-face).

When it comes to algorithmic systems and bureaucracy, Max Weber’s scholarship is one obvious candidate to work with. I, however, am intrigued to revisit Michel Crozier’s work, especially the book The Bureaucractic Phenomenon, as a resource for thinking about interactions with algorithmic systems. Crozier’s work challenges perspectives that overemphasize the rational organizational structure of bureaucracy, and places emphasis on the strategic efforts of different stakeholders within these organizational systems. Looking at algorithmic systems from this point of view allows for analysing strategic interactions on the system level in a manner that does not do away with the impact of networked systems but also keeps us focused on the possible tensions between the different human actors. Here, too, we need to be careful in applying old tricks to a new show, since as Minna Ruckenstein pointed out in the symposium, the rules in bureaucracies are typically public knowledge whereas this tends not to be the case with proprietary algorithms.

(Finally, while this talk deals with another domain, most of my recent research deals with the so-called sharing economy. If you’d like to hear more, I’d be happy to hear from you. For my academic papers, take a look at my Scholar profile.)

 

Slämärit ja superkäyttäjät: ihmeellinen Internet tutkijan työpöydällä

 

https://www.flickr.com/photos/meddygarnet/8346190491/
(cc) Morgan @Flickr

Smarter Social Media Analytics -tutkimushankkeessa sovellamme ja kehitämme erilaisia koneoppimiseen pohjautuvia menetelmiä sosiaalisen median tekstisisältöjen analysointiin. Fiksumpi  analyysi kuitenkin vaatii algoritmien rinnalle ihmisilmää – vähintäänkin kehitysvaiheessa.

Olen lukenut eilen ja tänään  SSMA-hankkeemme aineistosta läpi parintuhannen viestin otoksen, jossa viestit koskevat kasvissyöntiä tavalla tai toisella. Otos liittyy koko aineistosta tehtyyn aihemallinnukseen, jossa noin puolen miljoonan viestin massasta on ohjaamattoman koneoppimisen avulla erotettu erilaisia topiikkeja tai teemoja. Mallinnuksen syötteenä skripti antaa kasan perusmuotoistettuja sanalistoja, jotka kuvaavat näitä erilaisia aiheita. Lopulta kuitenkin ainoa tapa varmistaa, että tehty analyysi toimii kuten pitää, on ihmisvoimin tarkistaa mistä topiikeissa oikeastaan on kysymys. Tämä tapahtuu esimerkkiviestejä tarkistamalla.

Tarkistuskeikka on pieni matka yhä vain ihmeelliseen Internetiin. Sosiaalisen median tutkimuksen parasta antia ovat usein juuri näkymät vuorovaikutuksen maailmoihin, joita ihmiset verkossa elävät ja tuottavat mikrotasolla. Tässä kaksi hienoa esimerkkiä kasvisruokakeskusteluista.

**

Viestejä läpikäydessä olen kohdannut kymmeniä erilaisia virtuaalislämäreitä. Omassa nuoruudessani slämäri oli vihko, jossa jokaisella sivulla oli eri kysymys ja vastaukset kirjattiin tietyllä symbolilla tai anonyymisti. Nykypäivän slämäri on keskustelupalstalla kiertävä lista numeroituja kysymyksiä, johon kukin kirjoittaja vastaa, tai lista [ ] väittämiä, joista [x] rastitaan kirjoittajaan sopivat kohdat. Arvioin kirjoittajien olevan enimmäkseen melko nuoria.

Tällaiset memeettiset sisällöt ovat toistuvia, mutta kuitenkin niin monipuolisia tekstimuotoja, ettei sanojen yhdessä esiintymisen perusteella aiheita luokitteleva algoritmi osaa niitä niputtaa. Virtuaalislämäreissä kuitenkin kiertää kasvisyöntiä koskevia kysymyksiä, joiden vuoksi kaikki nuo tuhannet viestit näkyvät jokaisessa kasvissyönti-sanalla tehdyssä haussa tai tietyllä sanalla piirretyissä trendikuvaajissa. Toki ne osaltaan trendistä kertovatkin; kasvissyönti puhututtaa.

Toinen ihmettelyn aihe oli aihemallinnuksessa erästä topiikkia kuvaava sana, joka ei ollut mikään suomen kielen tunnistettava sana. Pienen selvittelyn jälkeen paljastui, että kyseessä on yksi Suomi24-foorumin superaktiivinen käyttäjä, joka kirjoittaa palstalle joka päivä keskimäärin kolmetoista viestiä päivässä.

Viestimäärä on ilmeisen tarpeeksi, että saa aikaan oman aiheen aihemallinnuksessa, kun muut käyttäjät mainitsevat kyseisen nimimerkin tarpeeksi usein. Selvästi siis onnistunut keskustelunherättäjä ja oman mikroyleisönsä julkkis, jonka viesteillä voi olla suurikin vaikutus keskustelujen aihepiiriin.

**

Molemmat esimerkit ovat sellaisia, joita on hankala automaattisesti tekstin seasta erottaa ilman laadullista tarkastelua, tai vähintäänkin sen tekeminen vaatisi melkoisia tapauskohtaisia virityksiä koodiin. Viritykset taas ovat varsinkin tuotantokäytössä aika hankalia ja toisaalta tekevät analyysista prosessin, jonka toimintaperiaatteita on vaikea ymmärtää ja tuloksia tulkita.

Silti ne ovat aika oleellisia mikrotason havaintoja siitä dynamiikasta, jolla vuorovaikutus verkossa muodostuu.

Kohti fiksumpaa keskustelujen mallinnusta siis pyritään, mutta todellisuus on aina vaan analytiikkaa ihmeellisempää. Se on jotenkin lohdullista.

Digitaalisen yhteiskunnan rajapinnoilla -luentosarja Tiedekulmassa 30.10.-11.12.

labyrinthclassroom_2435823037_7853d39e69_z
(cc) Karl-Ludwig Poggemann @Flickr

Rajapinta ry. järjestää yhdessä Helsingin yliopiston Kuluttajatutkimuskeskuksen kanssa luentosarjan Digitaalisen yhteiskunnan rajapinnoilla Helsingin yliopiston Tiedekulmassa 30.10.–11.12.2017 aina maanantaisin klo 13.15-14.45. Luennot ovat kaikille avoimia ja ne välitetään myös suorana verkkoon – tervetuloa kuulolle!

Luentosarja pureutuu digitaalisuuden yhteiskunnallisiin vaikutuksiin eri näkökulmista. Digitaalisuus ja teknologiset laitteet ovat muodostuneet erottamattoksi osaksi arkeamme. WhatsAppissa lähetetään yhdessä minuutissa 21 miljoonaa viestiä ja pyyhkäistään lähes miljoona kertaa Tinderissä. Suomessa tehdään päivittäin 30 miljoonaa Google-hakua. Vaalikeskustelut käydään vaaliteltan sijasta Twitterissä. Luentosarja kysyy, miten digitalisoituminen vaikuttaa sosiaalisen ja yhteiskunnalliseen toimintaan? Minkälaisia poliittisia, taloudellisia ja kulttuurillisia kytköksiä teknologian taustalla on? Teemoista alustavat teknologiayhteiskuntatieteilijät sekä organisaatioiden edustajat.

Helsingin yliopiston opiskelijat voivat suorittaa luentosarjan kurssina, jolloin suoritukseen kuuluu myös lukupiirisessio luentojen jälkeen.

Kurssin ohjelma:

*** 30.10. Introluento: Mitä on digitaalinen yhteiskuntatiede? [tallenne]

Mika Pantzar & Minna Ruckenstein (Kuluttajatutkimuskeskus)
Mika Pantzar luennoi kuluttajakansalaisen arjesta datataloudessa ja kertoo, miksi digitaalisesta kannattaa olla kiinnostunut? Vielä muutama vuosikymmen sitten mobiilin tietoyhteiskunnan visioissa kuluttaja näyttäytyi liike-elämälle lähinnä uutuuksien ja tiedon virran vastaanottajana. Internetin, sosiaalisen median ja kaikkialla mukana kulkevien digitaalisten laitteiden myötä käsitys kuluttajasta on kääntynyt päälaelleen. Kuluttajasta on tullut taloudellisen arvonmuodostuksen tärkein lähde. Minna Ruckenstein valottaa digitaalisen kulttuurin ja sosiaalisuuden tutkimuksellisia lähtökohtia.

*** 6.11. Identiteetti, addiktio ja teknologia [tallenne]

Suvi Uski (tutkija, Someturva) & Eeva Raita (Futurice Oy)
Suvi Uskin aiheena on yksilön identiteetti ja teknologia- Yksilön toiminta digitaalisissa ympäristössä ei pääse eroon ihmisen psykologian lainalaisuuksista. Luento pureutuu tutkimustietoon sekä tällä hetkellä tarjolla olevaan ongelma-avaruuteen, joka koskettaa kaikkia digitaalisissa ympäristöissä toimivia. Eeva Raita puhuu teemasta “Kokemus, addiktio ja mobiiliteknologia”: Jokaisen menestyvän digitaalisen palvelun takana on syvällinen ymmärrys ihmisten kokemuksellisuudesta. Luennolla keskustellaan siitä miten, miksi ja millä seurauksilla kokemus on noussut teknologian kehittämisen keskiöön.

*** 13.11. Näkökulmia politiikkaan ja teknologiaan [tallenne]

Matti Nelimarkka (Aalto-yliopisto & Helsingin yliopisto) & Minerva Krohn (Helsingin kaupunki, digitalisaatiotoimikunta)
Käsittelemme luennolla kahta laajaa teemaa: (1) teknologian käyttöä politiikassa erilaisten demokratiaa ja politiikkaa käsittelevien normatiivisten käsitysten kautta sekä
(2) puramme teknologian ja politiikan suhdetta toistensa muovaajina.

*** 20.11. Sosiaalinen vuorovaikutus ja yhteistoiminta verkkoalustoilla [tallenne]

Airi Lampinen (Tukholman yliopisto) & Vilma Lehtinen (Skhole Oy)
Sosiaalinen ja taloudellinen vuorovaikutus nivoutuvat yhteen alustapalveluiden avulla järjestettävässä toiminnassa. Esimerkkejä tästä ovat jakamistalous ja joukkoistaminen. Luennolla digitalisoitunutta sosiaalisuutta tarkastellaan vuorovaikutuksen, yhteisöjen ja yhteistoiminnan näkökulmasta

*** 27.11. Alustatoimijat ja datatalous

Tuukka Lehtiniemi (Aalto-yliopisto & Turun yliopisto) & Pauli Aalto-Setälä (Aller Media Oy)
Ihmisiä koskevasta datasta, henkilödatasta, on tullut digitaalisessa taloudessa keskeinen arvonluonnin raaka-aine. Tästä hyvänä esimerkkinä ovat verkon alustapalvelut. Luennolla kuvataan alustatoimijoiden keskeiseen asemaan johtaneita tekijöitä sekä avataan viimeaikaisia pyrkimyksiä ymmärtää datatalouden toimintalogiikkaa. Allerin Pauli Aalto-Setälä kertoo Allerin data-analyytikasta ja RIkastamo-projektista.

*** 4.12. Algoritmit, julkisuus ja media

Salla-Maaria Laaksonen (Helsingin yliopisto) & Jarno Koponen (YLE)
Julkisuus muotoutuu yhä enemmän mediateknologian muodostamassa ympäristössä, jossa viestien välitystä ja leviämistä säätelevät toisenlaiset logiikat kuin perinteisen mediajulkisuuden aikana. Luennolla avataan, miten teknologia ja ihmistoimijat yhdessä rakentavat hybridiä verkkojulkisuutta ja siellä liikkuvia diskursseja. Jarno Koponen Yeisradiolta avaa mikä on YLEn Uutisvahti ja muut discovery-ratkaisut uutiskäyttäjän näkökulmasta.

*** 11.12. Teknologiavälitteinen kansalaisuus

Veikko Eranti (Tampereen yliopisto) & Johannes Koponen (Demos Helsinki)
Millaisia mahdollisuuksia ja haasteita vuorovaikutuksen, viestinnän ja politiikan teknologiavälitteisyys aiheuttavat kansalaisuuteen? Miten meitä kontrolloidaan ja miten voimme itse hyödyntää teknologiaa poliittisessa toiminnassa? Tällä luennolla pohditaan, millaisia ovat poliittinen toimijuus ja kansalaisuus teknologiavälitteisessä maailmassa.

 

Ohjelmoinnin opetusta yhteiskuntatieteilijöille Helsingissä – jotain ajatelmia

English version available at Science & Industry, Matti’s personal blog.

Ensimmäinen Helsingin yliopiston Programming for social science kurssi pidettiin syksyllä 2014. Silloin ei ollut kovinkaan monia kursseja, joista katsoa mallia suunnittelun avuksi. 2014 jälkeen olen muuttanut kurssia ja yrittänyt mielestäni parantaa sitä. Esimerkiksi kurssin harjoitustehtäviä on muokattu yhteiskuntatieteitä käsitteleviksi (kevät 2015syksy 2016). Nykyisin ohjelmointi, yhteiskuntatiede ja ´data science’ on paljon trendikkäämpää kuin vuonna 2014. Esimerkiksi SAGE Publishing on SAGE Campuselleen luonut kurssin ohjelmoinnista videomateriaaleineen ja kertomuksineen (selkeyden vuoksi: pääsin käyttämään materiaalia ilmaiseksi arviointitarkoituksissa).

Koska ohjelmointi ja ‘data science’ ovat tällä hetkelä trendikkäitä, ajattelin, että nyt voisi olla hyvä hetki vähän kelata omaa opetustani ja sen kehittymistä. Uskon, että on olemassa (vähintään) kaksi erilaista tapaa opettaa ohjelmointia: tietojenkäsittelytieteellinen ja soveltava. Tietojenkäsittelytieteellinen lähestymistapa näkyy parhaiten eri yliopistojen “Johdatus ohjelmointiin”-kursseilla, missä koko tematiikkaa lähestytetään tietojenkäsittelytieteen perinteestä. Soveltava tyyli sen sijaan yrittää integroida ohjelmoinnin jonkin oppiaineen soveltavaan kontekstiin. Esimerkiksi Guzdialin (2003) kurssi keskittyi ohjelmoinnin opettamiseen media-alalle ja keskittyikin esimerkiksi kuvien automaattiseen käsittellyn. Samalla tavalla Sullivanin (2013) datavetoinen kurssi painotti laskennallista aineiston käsittelyä.

Ensimmäinen, syksyn 2014, kurssi oli ehdottomasti tietojenkäsittylytieteellinen. Teimme kaikki perinteiset tietojenkäsittelytieteen tehtävät, mukaanlukien Fizz-Buzz ja alkulukutestaus. Ovat samoja tehtäviä, millä minut on aikanaan opetettu. Jo silloin käytössä oli artikkeleita, jotka yrittivät vähän taustoittaa siitä, miten laskennallisia menetelmiä voidaan soveltaa yhteiskuntatieteissää. Kuitenkin, kurssin lopulla kuulin palautteessa, ettei ohjelmoinnin ja yhteiskuntatieteen välinen yhteys ollutkaan niin selvää, kun ajattelin sen olevan.Vähän kerrallaan, usean vuoden aikana kasvatin soveltavien tehtävien määrää. Soveltavat tehtävät pohjautuvat jotenkin yhteiskuntatieteellisiin ongelmiin, mutta yksinkertaistetussa muodossa. Tänä vuonna kokeilen liittää kaikki tehtävät yhteiskuntatieteen kannalta kiinnostavaan aineistoon ja kontekstiin. Kuten aiempinakin vuosina, luemme myös useita empiirisiä tapaustutkimuksia.

Katsotaan mitä tapahtuu tällä kertaa ja opitaan taas seuraavaan kertaan.Ja miten tämä kaikki liittyi SAGE Publishingingiin? Heidän uusi materiaalinsa pyrkii samaan tavoitteeseen kuin minä: tukemaan yhteiskuntatieteilijöiden ohjelmointia. Raktenteensa osalta kurssi on selkeästi rakennettu tietojenkäsittelytieteellisestä perspektiivistä. Rakenne seuraa hyvin perinteistä ohjelmointikurssia: ohjelmointiympäristön käyttö, muuttujien toiminta, kontrollirakenteet ja huomioita hyvistä toimintatavoista. Lisäksi on selvästi on enemmän soveltajille mielenkiintoista sisältöä, erityisesti verkkosivujen käsittely. Tekijöillä on kuitenkin ollut mielessä yhteiskuntatieteljät ja yhteiskuntatiedettä on koitettu tuoda osaksi sisältöä erillisillä “Application to Social Science”-laatikoilla. Valitettavasti ne eivät mielestäni olleet sisällöllisesti mitenkään mullistavia:

Ohjelmoinnin osalta materiaali on erittäin hyvätasoista. Videot ovat hyvin tehtyjä ja selkeän oloisia. Kuitenkaan mielestäni valmis itsenäiseksi materiaaliksi, vaan toimii yhteiskuntatieteellisen kurssin rinnalla jossa

  • on enemmän käytännön harjoituksia ohjelmoinnista, jotta yleisen tason ymmärrys ohjelmoinnista muuttuisi osaamiseksi
  • enemmän kertomusta laskennallisen tutkimusprosessin yhteydestä yhteiskuntatieteisiin ja sen käsitteisiin ja tukea ohjelmoinnin käyttöä tutkimusmenetelmänä

Tämän kaltaisella kurssilla on kuitenkin – kokemukseni mukaan – usein jonkun käsikirjan ohjelmoinnin opettamisesta. Internet toki on pullollaan näitä materiaaleja, mutta niistä tulee herkästi tilkkukäkkimäinen kokoelma erilaisia lähestymistapoja. Ja tämä ei toki ole systemaattinen ja myös aika sekava. SAGEn kurssi voisi toimia systemaattisempana mateiraalina tälläiselle kurssille.

Näin laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Jukka Huhtamäki & Salla-Maaria Laaksonen

Sosiaalisen median laskennallinen analytiikka perustuu piirteisiin (engl. feature). Piirteellä viitataan sosiaalisen median toimijoiden ja heidän tuottamien sisältöjensä ominaisuuksiin. Twitter-käyttäjällä on esimerkiksi tietty määrä seuraajia ja seurattavia ja twiiteissä käytetään aihetunnisteita. Valtaosa analytiikasta nojautuu tällä hetkellä helposti mitattaviin, numeerisiin ominaisuuksiin, kuten tykkäysten, retweettausten tai seuraajien määrään Twitterissä tai suorista mittauksista johdettuihin summalukuihin, kuten Facebookin engagement tai impressions.

Modernit laskennalliset keinot mahdollistavat jalostetumpaakin piirreanalyysia. Twiittien ja muiden tekstisisältöjen tunnesävyn eli sentimentin analyysi on esimerkki analytiikan keinoin tuotetusta jalostetusta piirteestä. Verkostoanalyysillä voidaan tuottaa piirteitä toimijoiden rakenteellisesta sijainnista verkostokokonaisuudessa. Vastaavasti esimerkiksi Instagram-kuvista voidaan tuottaa piirteitä — onko kuvassa henkilö, minkälainen tausta on, paistaako aurinko?

Piirteiden olennaisin hyöty on se, että ne jalostavat laadullista tietoa laskennalliseksi. Piirteiden avulla voidaan sekä tuottaa tutkittua tietoa syy-seuraussuhteista että opettaa koneoppimisen keinoin algoritmeja tunnistamaan kiinnostavia ilmiöitä. Niitä voivat olla esimerkiksi uuden trendi-ilmiön nousu, muutos asiakkaiden suhtautumisessa yritykseen tai jopa poliittinen liikehdintä. Näin isot ja abstraktit ilmiöt käytännössä rakentuvat jonkinlaisen piirteiden yhdistelmän päälle: anonyymien kirjoittajien määrä kasvaa, käytettyjen hashtagien jakauma pienenee, tai vaikkapa keskusteluissa kehittyy aiemmin tuntematon sana tai aihepiiri.

Mitä twiitistä saa irti?

Yksinkertaisimmillaan viestien analyysi keskittyy tiettyihin sanoihin ja käsitteisiin, joita voidaan palauttaa perusmuotoon ja tarkkailla esimerkiksi tietyn termin esiintymistä aineistossa ajan yli. Vielä yksinkertaisempaa on seurata esimerkiksi täsmällisesti merkittyjä hashtageja.

Mutta mitä muuta viesteistä saa irti kuin sanoja? Syvällisempi piirteisiin keskittyvä lähestymistapa on esimerkiksi tarkastella viestin sävyjä. Esimerkiksi Mike Thelwallin kehittämä SentiStrength -sentimenttianalyysikirjasto tulkitsee kirjoittajan suomenkielisen olevan sävyltään positiivinen:

sentistrenght-sallantwiitti

Presidentti Sauli Niinistön englanninkielinen twiitti saa vielä positiivisemman arvion:

sentistrenght-niinistontwiitti

Kuvan piirteiden analyysi on jo hitusen monimutkaisempaa, mutta sekin onnistuu. Microsoftin Computer Vision API tunnistaa, että Niinistön twiittaamassa kuvassa esiintyy varmasti ihmisiä, 86% todennäköisyydellä he seisovat ja 50% todennäköisyydellä poseeraavat. Tämän syvällisemmäksi menevien tulkintojen tekeminen on kuitenkin jo vaikeaa: koneen olisi melkoisen mahdotonta tulkita esimerkiksi taustalla näkyvän vartijan mahdollista silmien pyörittelyä, vaikka tällainen ironinen viesti onkin ihmistulkitsijalle melko selkeä.

niinistontwiitti

Mitä hyötyä piirteiden tunnistamisesta on?

Piirteiden tunnistamisen hyödyntämisessä on syytä erotella eri käyttötarkoitukset. Tutkimuskäytössä on usein tärkeää yksilöidä tarkasti piirteet ja todistaa niiden yhteys tutkittavaan ilmiöön tilastollisesti. Monessa käyttötarpeessa kuitenkin riittää, jos suurin osa aineistosta osuu kohdalleen tai jos automatiikalla saadaan edes pienennettyä manuaalista työtä – esimerkiksi keskustelupalstojen moderoinnissa tai asiakaspoistuma-analyysissä.

Asiakaspoistuma-analyysissä toteutuneista poistumista kerätään opetusaineisto, jossa piirteitä käytetään esimerkiksi asiakkaan brändiin liittyvien viestien tunnistamiseen ja luokittelemiseen vaikkapa tunnesävyn perusteella. Analyysin tavoitteena on, että sosiaalisen median datan perusteella saadaan esimerkiksi tunnistettua sopimuksensa pian irtisanova asiakas. Ollakseen uskottavaa, tällaisen tunnistuksenkin tulisi pohjautua mahdollisimman tarkasti todennettuun ja eri konteksteissa toistettuun yhteyteen. Ylipäänsä on hyvä muistaa ettei mikään automaattinen luokittelu pääse sadan prosentin tarkkuuteen – ei edes ihmisten tekemä.

Kentän kehittymistä hidastaakin myös koneoppimisen kontekstisidonnaisuus: esimerkiksi vihapuhetta tunnistava luokittelija osaa tunnistaa puheen vain sillä kielellä ja siinä kontekstissa, mihin se opetettu. Valtaosa koneoppimisesta onkin ohjattua koneoppimista, jossa koulutusmateriaaleina käytetään ihmisten luokittelemia esimerkkidatasettejä. Siksi opetusdatasetit ovat tekoälyajan tärkein resurssi.

Mitä tulevaisuudessa?

Koneoppiminen on elimellinen osa piirteisiin perustuvaa someanalytiikkaa. Regressioanalyysi, luokittelu ja ryvästäminen mahdollistavat analytiikan eri vaiheet kartoittavasta kuvailevaan ja ennustavasta ohjaavaan. Tällä hetkellä erityisesti konenäköön liittyvä koneoppimisen tutkimus keskittyy syväoppimiseen (katso esimerkiksi Tuomo Hiippalan palkittu tutkimus sotilasajoneuvojen tunnistamisesta sosiaalisen median kuva-aineistoista), mutta myös syväoppimiseen perustuvissa tekstiaineiston luokittelusovelluksissa on otettu merkittäviä askeleita (Kipf, 2016).

Koneoppimismallien ennustuskyky on parantunut merkittävästi, mutta mallit ovat yhä mustia laatikoita — mallin yksityiskohdat jäävät usein ainoastaan koneen tietoon tai eivät avaudu ihmistulkitsijalle. Tästä syystä onkin kiinnostavaa seurata, miten syväoppiminen ja muut edistyneet koneoppimismenetelmät saadaan parhaalla tavalla valjastettua sosiaalisen median analytiikan tueksi.

Lisälukemista:


Teksti on tuotettu DEEVA– ja SSMA-tutkimushankkeiden yhteistyössä.

Algoritminen julkisuus on vinoutunutta kyborgijulkisuutta

2453788025_fd51aeb4d9_z
(cc) runran @Flickr

Teknologia nähdään helposti neutraalina tiedonvälittäjänä. Moni viestinnän ammattilainen ei tiedä, miten teknologia toimii tai miten sen kanssa pitäisi toimia. Meidän pitäisi kuitenkin olla yhä tietoisempia siitä, miten esimerkiksi algoritmit meitä  tulevaisuudessakin ohjaavat.

“Software is, in other words, a part of a ‘technological unconscious’ (Clough, 2000), a means of sustaining presence which we cannot access but which clearly has effects, a technical substrate of unconscious meaning and activity.” (Thrift, 2005)

Maantieteilijä-sosiologi Sir Nigel Trift on käyttänyt teknologisen tiedostamattoman käsittettä kuvaamaan teknologian ja ohjelmistojen vaikutusta eräänlaisena sosiaalisen elämän kehikkona, joka tiedostomattomasti vaikuttaa toimintaamme.

Viestinnän ja julkisuuden näkökulmasta teknologisen tiedostamattoman käsite kuvaa kahta asiaa: Ensinnäkin niitä informaatioteknologian tuntemattomia ominaisuuksia ja tapoja, jotka muokkaavat arkea ja erityisesti media-arkeamme, mutta joista emme useinkaan ole kovin tietoisia. Toisaalta käsite muistuttaa siitä, että monella viestinnän ammattilaisella ei ole tarpeeksi tietoa siitä miten teknologia lopulta toimii tai miten sen kanssa pitäisi toimia.

Teknologinen tiedostamaton määrittelee monella tapaa sitä, miten julkisuus muotoutuu. Keskeisin tämän hetken julkisuuden rakennuspalikka on newsfeed, uutisvirta, joka eri palveluissa jäsentää verkon sisältöjä pyrkien maksimoimaan huomion ja palvelussa vietetyn ajan. Käytännössä tämä tapahtuu erilaisten algoritmien avulla: pienet tietokoneohjelmat tai laskukaavat ohjaavat sisällön esittämistä aiempaan käyttäytymiseemme perustuen.

Huolestuttavaa on, että teknologia nähdään neutraalina tiedonvälittäjänä. Vuoden 2017 Edelman Trust Barometerissä vastaajat arvioivat hakukoneet kaikkein luotettavimmaksi tiedonlähteeksi. Perinteisen median luottamus puolestaan on romahtanut. Teknologia vaikuttaa puolueettomalta ja virheettömältä toimijalta samalla kun perinteinen media nähdään eliitin käsikassarana.

Algoritmit ovat kuitenkin tasan yhtä hyviä kuin mekin. Ihmisten toimintatavat, vinoumat ja virhekäsitykset siirtyvät suoraan niihin joko ohjelmoinnin tai koneoppimisen kautta. Hakukone suoltaa sisältöä, josta se arvelee etsijän pitävän aiemman verkkokäyttäytymisen perusteella. Teknologia tuottaa kaikukammioita, koska ihmiset ovat sosiaalisessa toiminnassa tyypillisesti mieluten oman viiteryhmänsä kanssa. Työnhakualgoritmi syrjii tummaihoisia. Microsoftin tekoälybotti jouduttiin ottamaan pois linjoilta, kun se oppi päivässä suoltamaan rasistista vihapuhetta Twitterin elämänkoulussa.

Sisältöjen kohdentamisessa ja teknologiajättien bisnesmallina vinotkin algoritmit kuitenkin toimivat hyvin. Facebook tahkoaa rahaa 6,4 miljardin dollarin liikevaihdolla. Käyttäjämäärät suosituissa sosiaalisen median palveluissa jatkavat kasvuaan, ja alustat tuottavat uusia toimintamuotoja, joilla pyritään maksimoimaan niissä vietetty aika. Julkisuuden ja demokratian kannalta kuitenkin ongelmallista on, että algoritmi ei osaa tehdä eroa eri sisältöjen välillä. Se tarjoilee samalla logiikalla kenkiä, lääkkeitä ja politiikkaa. Syyskuussa 2017 Facebookissa pystyi esimerkiksi kohdentamaan mainoksia suoraan juutalaisvihaajille.

Rahalla siis saa. Bisneslogiikan nimissä samaan aikaan mediayhtiöt ovat huomanneet, että Facebookin algoritmi näyttää entistä vähemmän mediatalojen postauksia niiden seuraajille. Sen sijaan se painottaa sosiaalisuutta ja engagementtia: newsfeedissä näkyy todennäköisimmin sisältöjä, joita kaverisi ovat jakaneet, tykänneet tai kommentoineet. Faktoilla ei tässä pelissä ole arvoa. Sen sijaan tunteilla ja epärehellisyydellä on.

Tämä logiikka on voimalain logiikkaa (Matthew effect). Mikä tahansa tahmainen, ihastuttava tai vihastuttava sisältö päätyy todennäköisemmin näytetyksi, ja sisällön suosio kasvaa entisestään. Siksi julkisuudestamme muodostuu väistämättä tunnejulkisuus, joka etenee kohusta toiseen. Teknologinen tiedostamaton on siis lopulta hybridiä ihmisyyttä, julkisuuden muodostumista kyborgitoimijoiden kautta.

Viestinnän ammattilaisen näkökulmasta huolestuttavaa on se, että teknologian edistämä logiikka hiipii myös niihin tapoihin, joilla viestintää tehdään ja mittareihin, joilla sitä mitataan. Klikkien tuijottamisesta on kenties päästy piirun verran eteenpäin, mutta nyt uusi mittari, jota kaikki maanisesti tuijottavat on sisällön aikaansaama sitoutuminen, engagament.

Se on muuten Facebookin kaupallista menestymistä varten tehty mittari.

Mitäpä jos pakasta napatun mittarin sijasta viestinnän ammattilaiset itse rohkeasti määrittelisivät, mitä on hyvä viestintä, mitä on vaikuttavuus ja miten sitä halutaan mitata?

– –
Salla-Maaria Laaksonen (VTT) on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.

Blogikirjoitus on rinnakkaispostaus Viesti ry:n blogista. ja perustuu HY+:n ja Viesti ry:n Viestinnän tulevaisuus -tilaisuudessa 26.9.2017 pidettyyn puheenvuoroon.

Kestävämpiä digitalisia ratkaisuja verkostoitumiseen ja yhteistyökumppanien valintaan?

Rajapinta.co:n kuukausitapaaminen Tampereella 29.9. vahvisti heikkoja siteitä paikallisiin tutkijoihin. Poimintana tapaamisesta, seuraavassa tiivistelmä järjestäjien tutkimusagendasta, joka paitsi sijoittuu teknologian ja yhteiskunnan rajapintaan myös demonstroi usean tieteenalan mielenkiintoista yhteistyötä. Agenda liittyy Thomas Olssonin (ihminen-teknologia vuorovaikutus), Jukka Huhtamäen (verkostoanalytiikka ja datatiede) ja Hannu Kärkkäisen (tietotyö ja arvonluonti) COBWEB-akatemiahankkeeseen sekä Big Match Tekes-hankkeeseen.

Ihmisten välistä sosiaalista sovittamista (engl. social matching tai matchmaking) tapahtuu työelämässä mm. rekrytointiprosesseissa, tiimien muodostamisessa ja verkostoitumisessa. Sopivan henkilön, yhteistyökumppanin tai tiimin tunnistaminen ja valinta vievät paljon aikaa ja intuitiiviset “mätsäämisen” käytännöt ovat alttiita inhimillisille vinoumille. Esim. verkostointitapahtumissa on yleistä, että samankaltaiset ihmiset vetävät puoleensa toisiaan; tällainen homofilia on kuitenkin tietotyön tuottavuudelle vahingollista. Uskomme, että rohkaisemalla ihmisiä kohtaamaan erilaisista taustoista tulevia, eri yhteisöjen jäseniä voidaan edistää tietotyössä olennaista ideoiden ristiinpölyttymistä ja moninäkökulmaista, verkottunutta arvonluontia.

Tavoitteenamme on suunnitella ja toteuttaa sosiaaliseen massadataan, verkostoanalytiikkaan ja koneoppimiseen perustuvaa tietoteknologiaa, joka mahdollistaa digitaalisia tapoja sovittaa, ryhmäyttää ja törmäyttää ihmisiä työelämässä. “Työelämän Tinder” on mainio vertauskuva, mutta parinvalinnan periaatteet ovat työelämässä aivan erilaiset kuin yksityiselämässä. Tutkimuksemme peruslähtökohta on, että datapohjaisilla tavoilla voidaan tunnistaa otollisia, toisiaan sopivasti täydentäviä osaajakombinaatioita ja siten tuottaa positiivista sosiaalista serendipiteettiä. Tavoite voisi konkretisoitua esim. diversiteettiä lisäävinä henkilösuosittelujärjestelminä (diversity-enhancing people recommender systems) tai uudenlaisina yhteistyökumppaneiden haku- tai selausjärjestelminä.

Sosiaalinen massadata eli “Big Social Data” (esim. sosiaalisen median sisällöt ja profiilit, portfoliot, verkostot) voivat rikastaa palvelujen kautta syntyvää kuvaa kustakin käyttäjästä. Nykyiset profiilit esim. työnhaussa ovat yleensä käyttäjän itse laatimia ja siksi kovin staattisia ja sisällöltään rajoittuneita. Esim. twiitit voivat kertoa paljon henkilön tämän hetken kiinnostuksen kohteista ja tulevaisuuden visioista, kun taas esim. verkossa olevat ammatilliset julkaisut ja esitykset voivat kertoa henkilön yksityiskohtaisesta osaamisesta. Tunnistamalla relevantteja yhteisiä teemoja ja komplementaarisia osaamisia esim. tapahtuman osallistujien välillä voidaan automaattisesti tunnistaa potentiaalisia pareja, joiden kannattaisi keskustella lisää. Sosiaalisten verkostojen analyysillä voidaan paitsi arvioida henkilöiden keskinäistä suhdetta ja verkoston kokonaisrakennetta myös tunnistaa yhteisiä kontakteja ja ns. heikkoja siteitä (weak ties).

Tarkoituksenamme on lisäksi tarjota positiivinen skenaario sosiaalisen median datan käytölle ja digitalisaatiolle yleensä. Ehkäpä tällaisten kaikkia hyödyttävien palvelujen kehittäminen hälventää ihmisten yksityisyydensuojan menettämisen pelkoa sekä motivoi yrityksiä avaamaan data-aineistojaan laajemmin hyödynnettäviksi?

Uusien palveluiden ideointi ja utopististen tulevaisuuskuvien maalailu on kuitenkin huomattavasti helpompaa kuin niiden toteuttaminen. Data-keskeisiä haasteita ovat mm. sopivan datan saatavuus eri palvelujen ja palveluntarjoajien siiloista, datan keräämisen ja analysoinnin yksityisyyteen liittyvät ja muut eettiset haasteet sekä massadatan kehittymättömät analyysi- ja visualisointimenetelmät. Sovittamisen sosiaalipsykologiset haasteet ovat jopa vielä monimutkaisempia: “sopivan” henkilön tai organisaation tunnistaminen vaatii ymmärrystä mm. sovitettavien tahojen mahdollisista yhteistyötarpeista, ja jokaisella sovittamistilanteella on uniikki tavoite ja erityispiirteitä, jotka pitäisi ottaa huomioon järjestelmän päätöksenteossa. Digitaalisten sisältöjen suosittelujärjestelmistä tuttuja menetelmiä (esim. social filtering) ei siis voida suoraan hyödyntää.

Kokonaisuuteen vaikuttavat myös käyttäjäkokemukselliset erityispiirteet: miten saada käyttäjä luottamaan teknologian tekemiin päätelmiin ja suosituksiin henkilöistä? Miten saada ihmiset delegoimaan osan päätäntävallastaan ja toimijuudestaan teknologialle, varsinkin näin perustavanlaatuisen inhimillisellä sovellusalueella? Miten sinä kokisit sen, että kännykkäsi yhtäkkiä piippaa kertoakseen, että joku tuntematon, mutta algoritmin mielestä todella relevantti tyyppi on tulossa samaan tapahtumaan ja että teidän kannattaisi tavata?