Pitäisikö algoritmien pelastaa meidät epävarmuudelta?

https://www.flickr.com/photos/belgapixels/2703291441/
Kuva (cc) Belgapixel @Flickr

Viimeisten vuosien aikana on puhuttu paljon algoritmien vallasta, mutta keskusteluissa esiintyy monia erilaisia näkökulmia siitä, minkälaista tuo valta oikeastaan on. Yhtäältä on keskusteltu algoritmien kyvystä rajata ja muokata ihmistoiminnan mahdollisuuksia, esimerkiksi luokittelemalla ihmisiä ja ohjaamalla tiedon kulkua [1,2,3]. Toisaalta huomiota on kiinnitetty algoritmeja koskevien käsitysten ja odotusten rooliin toiminnan ohjaamisessa [4]. Tässä kirjoituksessa pohdimme yhtä mahdollista syytä sille, miksi algoritmit ylipäätään saavat valtaa.

Michel Crozier käsittelee kirjassaan The Bureaucratic Phenomenon [5] sitä, miten byrokraattisissa organisaatioissa valtaa keskittyy henkilöille, joilla on kyky hallita organisaation toimintaan liittyvää epävarmuutta. Hän kirjoittaa esimerkiksi tehtaan koneiden huoltohenkilökunnasta ryhmänä, jolle valtaa keskittyi, koska he kykenivät vähentämään tuotantokoneisiin liittyvää epävarmuutta.

Tuotantokoneiston huoltaminen oli tehtaiden toiminnan kannalta keskeistä ja huoltohenkilökunta muodosti asiantuntijaryhmän, jolla yksin oli huoltamiseen tarvittavaa osaamista. Tämä osaaminen antoi huoltohenkilöstökunnalle strategisen etulyöntiaseman suhteessa tehtaan muihin henkilöstöryhmiin. Byrokraattisesta rakenteesta huolimatta organisaatio oli kykenemätön hallitsemaan henkilöstöryhmien epämuodollista kanssakäymistä. Tästä johtuen koneiden rikkoutumiseen liittyvän epävarmuuden hallinta loi huoltohenkilökunnalle valtaa, jota he käyttivät neuvotellessaan ryhmänsä eduista.

Crozierin analyysissa byrokraattisten organisaatioiden keskeinen pyrkimys on kontrolloida organisaation toimintaan liittyviä epävarmuuden lähteitä. Epävarmuus organisaation toiminnassa luo hallitsematonta valtaa, joka tekee byrokraattisen järjestelmän toiminnasta epätehokasta.

Yksi byrokraattisten järjestelmien toimintaan liittyvän määrällistämisen tavoitteena on etäännyttää järjestelmien toiminta subjektiivisista ihmisarvioista [6]. Sama ilmiö näkyy myös erilaisten algoritmisten sovellusten käytössä. Algoritmien toivotaan paitsi eliminoivan epävarmuuden lähteitä, myös parantavan toiminnan tehokkuutta.  Usein toiveena on, että ihmisen päätöksenteon subjektiivisuuteen tai muihin heikkouksiin liittyvät ongelmat voidaan ratkaista uusilla datapohjaiseen analytiikkaan perustuvilla teknologisilla sovelluksilla [7,8]. Tämä epävarmuuden kontrollointi näkyy tapauksissa, joissa algoritmien käyttöä perustellaan niiden systemaattisuudella tai tasalaatuisuudella, kuten esimerkiksi algoritmisen analytiikan tehokkuutta ja ennustekykyä koskevissa odotuksissa [9]. Ennustekyvyn tarkentumisen ja toiminnan tehostamisen onkin esitetty olevan nykyanalytiikkaa keskeisesti ohjaavia odotuksia [10]. Yksi käytännön esimerkki ovat itseohjautuvat autot, joiden toivotaan olevan ihmisten ohjaamia autoja turvallisempia [esim. 11]. Personalisoidun terveydenhuollon taas toivotaan tarjoavan yksilöille entistä parempia tapoja hallita terveyttään [12]. Myös esimerkiksi tekoälyn käyttö yritysten rekrytointiprosesseissa on yleistymässä. Automatisoituja rekrytointiprosesseja perustellaan vedoten tehokkuuteen ja algoritmisen arvioinnin tasalaatuisuuteen [esim. 13].

Erving Goffman on käsitellyt esseessään Where the action is? [14] kohtalokkuutta. Hän liittää käsitteen päätöksiin, jotka ovat ongelmallisia ja seuraamuksellisia. Puhtaan ongelmalliset päätökset ovat sellaisia, joissa oikea päätös ei ole selvä, mutta päätöksellä ei ole laajemman elämän kannalta juurikaan väliä. Valinta sen suhteen, mitä katsoa televisiosta, on esimerkki tällaisesta päätöksestä. Esimerkiksi päätös lähteä joka aamu töihin taas on esimerkki seuraamuksellisesta päätöksestä, jossa oikea valinta on selvä. Kotiin jäämisellä voisi olla haitallisia seurauksia, joten valinnalle lähteä töihin on selkeät perusteet. Kohtalokkaat päätökset ovat sellaisia, joissa valinnalle ei ole selkeitä perusteita, mutta sen tekemisellä on laajakantoisia seurauksia Goffmanin mukaan pyrimme järjestämään arkemme niin, että päätöksemme eivät yleensä olisi kohtalokkaita.

Sama kohtalokkuuden vähentäminen on läsnä niissä toiveissa, joita esitämme algoritmeille. Toivomme niiltä apua tilanteissa joissa oikea päätös on epäselvä. Emme kuitenkaan pysty pakenemaan kohtalokkuutta kokonaan. Päätöksillä voi aina olla ennakoimattomia seurauksia. Koska olemme aina läsnä omana, fyysisenä itsenämme, yllättävissä tilanteissa kehomme voi esimerkiksi aina vahingoittua. Kaikkeen olemiseen liittyy riskejä.

Ajatuksella kohtalokkuuden eliminoimisesta on yhtymäkohta Crozierin byrokratia-analyysiin. Byrokraattiset järjestelmät kehittyvät juuri olosuhteissa, joissa toimintaan liittyvää epävarmuutta pyritään eliminoimaan. Paradoksaalisesti juuri epävarmuuden eliminointiin käytetty menetelmä – tiukka toimintaa ohjaava formaali säännöstö – johtaa vallan keskittymiseen organisaation niihin osiin, joista epävarmuutta ei saada kitkettyä. Samaten kohtalokkuuden eliminoiminen algoritmien avulla voi johtaa vallan toimimiseen juuri niiden teknologioiden välityksellä, joilla epävarmuutta pyritään hallitsemaan. Tästä näkökulmasta yksi syy sille, että algoritmeille syntyy valtaa, on pyrkimys kontrolloida epävarmuutta, jota ei kuitenkaan täydellisesti kyetä hallitsemaan. Algoritmisissa järjestelmissä valta toimii algoritmien kautta, mutta syntyy osana laajempaa ihmistoiminnan kontekstia. Näin ollen algoritmista valtaa voitaisiinkin kenties tutkia kysymällä, minkälaisia epävarmuustekijöitä algoritmien käytöllä pyritään hallitsemaan, ja mikä mahdollisesti jää hallitsematta?

Jos joku lupaa auttaa meitä tekemään aina oikean päätöksen epävarmassa maailmassa, ei ole ihme että kuuntelemme. On kuitenkin syytä kiinnittää huomiota siihen, että samalla auttajille keskittyy valtaa.

Teksti: Jesse Haapoja & Juho Pääkkönen

– –
Kiitokset kommenteista Salla-Maaria Laaksoselle, Airi Lampiselle ja Matti Nelimarkalle. Tämä teksti kirjoitettiin osana Koneen Säätiön rahoittamaa Algoritmiset järjestelmät, valta ja vuorovaikutus -hanketta.

Lukemisen datafikaatio ja uskottavuus

Yhä useampi arkipäiväinen toimintamme muutetaan erilaisten digitaalisten välineiden avulla dataksi, jota käytetään erilaisiin laskennallisiin toimiin kuten käyttäytymisemme ennakointiin ja sisältöjen personointiin. Tätä prosessia kutsutaan datafikaatioksi. Ihmiset luonnollisesti tulkitsevat tätä prosessia kuten ympäristöään ylipäätään. Tässä blogikirjoituksessa keskityn lukemisen datafikaatioon ja miten ihmiset sitä ymmärtävät.

Julkaisimme hiljattain Airi Lampisen kanssa artikkelin, jota varten haastattelin jo suljetun uutissuosittelujärjestelmä Scoopinionin käyttäjiä ja pääkehittäjää. Scoopinion oli Suomessa kehitetty uutissuosittelujärjestelmä, joka seurasi käyttäjien lukuaikaa eri uutisartikkeleissa. Se suositteli käyttäjille heitä tältä pohjalta mahdollisesti kiinnostavia artikkeleita. Scoopinionia voidaan siis pitää yhtenä esimerkkinä datafikaatiosta.

Uskottavuus ja data

Haastatteluissa nousi esiin uskottavuus: koska Scoopinion keskittyi lukuajan mittaamiseen eikä perinteisempään klikkipohjaiseen analytiikkaan, kokivat haastateltavat sen antamat suositukset luotettavammiksi. Tämä luotettavuus syntyi ajatuksesta, että lukuaika on pelkkää klikkausta parempi todiste siitä, että datan lähde on pitänyt artikkelia kiinnostavana. Lukuajan ajateltiin siis edustavan paremmin lukijan arviota artikkelista. Tämä tapa kehystää lukuaika oli toki myös se tapa, jolla järjestelmän kehittäjät pyrkivät palveluaan markkinoimaan.

Scoopinionin uskottavuus siis rakentui lukemiseen liitettyjen merkitysten varaan, joita kehittäjät käyttivät hyväkseen sekä järjestelmää rakentaessaan että sitä markkinoidessaan. Järjestelmää käyttäneet ihmiset tulkitsivat järjestelmän toimintaa lukemiseen liitettyjen merkitysten kautta. Järjestelmää tehtiin ymmärrettäväksi pohjaten näihin merkityksiin, kuten esimerkiksi siihen, että ihmiset ajattelevina olentoina arvioivat lukemaansa omien mieltymystensä mukaan ja viettävät enemmän aikaa itseään kiinnostavien tekstien parissa kuin sellaisten tekstien, jotka heitä eivät kiinnosta. Toisaalta palvelu myös toi uusia merkityksiä lukemiselle: kun palvelu seurasi lukemista, lukeminen muuttui implisiittiseksi suosittelemiseksi. Tämän seurauksena palvelu, jossa käyttäjillä ei ollut mahdollisuutta nähdä muita käyttäjiä koettiin kuitenkin tietyllä tapaa sosiaalisena.

Algoritmiset palvelut osana laajempaa merkitysjärjestelmää

Myös muissa algoritmisissa palveluissa ymmärrystä rakennetaan niitä edeltävien merkitysten varaan, samalla kuitenkin tuoden niihin jotain erilaista. Facebook-ystävät eivät ehkä tarkoita täsmälleen samaa kuin ihmiset jotka koemme ystäviksemme sen ulkopuolella, mutta palvelu käyttää kuitenkin hyväkseen ystävyyteen liitettyjä merkityksiä. Kun kyydityspalvelu Uber alkoi menestymään, rupesivat monet muut jakamistalouspalvelut markkinoimaan itseään tietyn asian “Uberina”: uusien palveluiden uskottavuutta menestyä rakennettiin Uberin menestyksen päälle. Nämä palvelut nojasivat tällä kehystämisellä Uberiin liitettyihin merkityksiin, joka puolestaan on idealtaan hyvin samankaltainen kuin sitä vanhemmat taksipalvelut. Tässä tapauksessa korostui Uberin lupaus tehdä vanha asia kustannustehokkaammin ja antaa “tavallisille” ihmisille mahdollisuus hyötyä taloudellisesti toiminnasta, joka oli aiemmin nähty pääosin tietyn ammattiryhmän toimialana.

Algoritmisia järjestelmiä sosiaalitieteellisestä näkökulmasta tutkittaessa tulisi huomioida, että usein niiden käyttämää dataa ja siihen liittyviä merkityksiä on hankalaa, ellei mahdotonta, erottaa itse algoritmeista, joita järjestelmät käyttävät. Usein data edustaa palveluissa ihmistä ja tästä datasta tehdään selkoa niiden käsitysten kautta, joita ihmisten toimintaan liitetään palvelun ulkopuolella.

Järjestelmät ovat ihmisten rakentamia ja niitä ruokitaan ihmisten toiminnalla. Ne ovat siis läpeensä sosiaalisia.

Artikkeli julkaistiin ihmisen ja tietokoneen välisen vuorovaikutuksen tutkimukseen keskittyvässä NordiChi-konferenssissa ja sitä tehtiin osana Koneen Säätiön rahoittamaa Algoritmiset järjestelmät, valta ja vuorovaikutus -hanketta.

Artikkelin tiedot:
Haapoja, J., & Lampinen, A. (2018). ‘Datafied’ Reading: Framing behavioral data and algorithmic news recommendations. In NordiCHI 2018: Revisiting the Life Cycle – Proceedings of the 10th Nordic Conference on Human-Computer Interaction (pp. 125-136). DOI: 10.1145/3240167.3240194

Algoritmit, ihmiset, ja vallankäyttö

Mitä algoritmit ovat ja miksi niistä pitäisi käydä yhteiskunnallista keskustelua?

Puhuin viime perjantaina meppi Liisa Jaakonsaaren järjestämässä “Älä elä kuplassa: Algoritmit ja digitaalinen sivistys EU:SSA” -seminaarissa. Saatuani kutsun tulla puhumaan algoritmeista, lupasin osallistua, kunhan puhuttaisiin myös ihmisistä ja vallankäytöstä.

Tässä muutama keskeinen ajatus esityskalvoja täydentämään:

1. Mitä algoritmit ovat?

Perinteisen teknisen määritelmän mukaan algoritmi on kuin resepti: yksityiskohtainen kuvaus tai ohje, jota seuraamalla tehtävä, prosessi tai ongelmanratkaisu suoritetaan. Tästä kelpaa esimerkiksi vaikka jakokulma. Nykyään algoritmeista puhuttaessa viitataan kuitenkin useammin oppiviin algoritmeihin ja koneoppimiseen: algoritmit oppivat ja kehittyvät käyttämänsä datan pohjalta, eivätkä lopputulokset siten ole samalla tavalla sääntömääräisiä kuin perinteinen määritelmä antaa ymmärtää.

Yhä useammin käytetään termiä algoritminen järjestelmä viittaamaan laajempaan kokonaisuuteen, joka pitää sisällään paitsi yksittäisiä koodinpätkiä, myös laajempia tietojärjestelmiä, ihmisiä, ja organisaatioita. Algoritmit eivät ole ympäristöstään irrallisia. On myös hyvä huomata, että siinä missä nyt puhutaan algoritmeista, muutama vuosi sitten puhuttiin big datasta. Paljolti on kyse samasta asiasta.

2. Algoritmeista puhuttaessa on puhuttava myös datasta

Algoritmeja tarvitaan, jotta voidaan käsitellä suuria määriä dataa, ja algoritmit tarvitsevat dataa toimiakseen ja oppiakseen. Niinpä algoritmeista puhuttaessa on puhuttava myös datasta:  Miten dataa tuotetaan & kootaan? Miten dataa luokitellaan & käytetään? Dataa tuotetaan ja kootaan yhä enemmän ja erilaisista tilanteista. Arkinen toimintamme jättää jälkiä, usein silloinkin, kun emme ajattele olevamme tekemisissä digitaalisten systeemien kanssa.

3. Kohtaamisemme algoritmien kanssa ovat arkisia, poliittisia, ja usein huomaamattomia

Google ja muut hakukoneet auttavat meitä löytämään tarvitsemaamme tietoa. Samalla ne kuitenkin määrittävät sitä, mitä näemme ja tiedämme. Ne heijastavat käyttämänsä datan vuoksi niitä ympäröivän yhteiskunnan vääristymiä, eivätkä ne toki ole itsekään neutraaleja välikäsiä. Facebookin uutisvirran kohdalla algoritmista sisällönkäsittelyä tarvitaan valikoimaan mediatulvasta kuvia ja kirjoituksia, jotka järjestelmä arvioi yksittäistä käyttäjää kiinnostaviksi. Pyrkiessään pitämään käyttäjät pauloissaan ja löytämään meitä kiinnostavia sisältöjä, Facebook voi päätyä vahvistamaan valintojamme (yhä enemmän kissavideoita kissavideoista pitäville).

Kolmantena esimerkkinä musiikkipalvelu Spotifyssakin toimintamme tuottaa dataa, joka ohjaa sitä, mitä meille tarjotaan. Emme ehkä ajattele tuottavamme dataa musiikkia kuunnellessa, mutta valintamme ovat osaltaan mukana palautekehässä, joka vahvistaa taipumuksiamme ja ohjaa sitä, millaisia uusia sisältöjä löydämme. Neljäntenä esimerkkinä tuotamme dataa myös kaupunkipyörällä ajellessa ja monissa muissa tilanteissa, joita emme ehkä tunnista digitaaliseksi vuorovaikutukseksi. Tuottamallamme datalla voi olla poliittisia seurauksia, kun sitä käytetään järjestelmien kehittämiseen. Jos vaikkapa kaupunkipyöräjärjestelmää kehitetään datavetoisesti, saatetaan päätyä vahvistamaan palvelua siellä, missä sitä on jo helppo käyttää, sen sijaan, että suunnattaisiin voimavarat sinne, missä tarve on suurin. Kenen ääni kuuluu ja huomaammeko tekevämme jotain poliittista silloin, kun arkisen toimintamme oheistuotteena syntyy dataa?

4. Teknologiaa on helpompi muuttaa kuin kulttuuria.

Kun puhutaan algoritmeista, ollaan usein huolissaan niiden vallasta ja vääristymistä, joita ne tuottavat. Yhteiskunnan vääristymät ja virheet löytävät kuitenkin tiensä myös digitaalisiin järjestelmiin. Esimerkiksi algoritmisten järjestelmien näkyväksi tekemä syrjintä on monesti lähtöisin datasta, jota järjestelmät käyttävät ja joka heijastaa yhteiskunnan historiallisia tai vallitsevia vinoutumia. Järjestelmiä voidaan muuttaa, jotta ne eivät vahvistaisi tai ylläpitäisi syrjintää, mutta syrjinnän kitkemiseksi on muutettava yhteiskuntaa laajemmin.

5. Algoritmiset järjestelmät muistuttavat byrokratiaa.

Tämänhetkisen algoritmikohinan keskellä on hyvä miettiä, mikä näissä järjestelmissä on oikeastaan uutta. Joiltain osin algoritmit muistuttavat byrokratiaa. On siis puhuttava siitä, miten algoritmit ja ihmiset toimivat yhdessä ja millaista valtaa toimintaan kulloinkin liittyy. Uhkana on, että puhumalla algoritmien vallasta vältytään puhumasta algoritmeista vallankäytön välineenä.

Lue lisää:

Mitä on fiksumpi sosiaalisen median analytiikka?

4601859272_4228421089_z
Kuva: (cc) Matt Wynn

Sosiaalisen median analytiikka pyörii yhä enimmäkseen asiasanahakujen ja niiden seurannan ympärillä. Miten kehittyneemmät tekstianalytiikan menetelmät voivat olla hyödyksi ymmärtämään, mistä keskusteluissa on kyse? Mitä reunaehtoja ja epävarmuuksia suurten lupausten automatiikkaan liittyy?

 

Tekesin rahoittama tutkimushankkeemme Smarter Social Media Analytics päättyi toukokuun lopussa. Tutkimushankkeessa pengoimme yli miljardin viestin sisältävää Futusomen somekeskusteluaineistoa automaattisen analytiikan keinoin ja selvitimme, miten keskusteludata rinnastuu muihin aineistoihin, muun muassa Taloustutkimuksen kyselydataan ja SOK:n tuotteiden myyntilukuihin.

Olemme hankkeen aikana testanneet lukuisia erilaisia ohjatun ja ohjaamattoman koneoppimisen muotoja. Lopputuloksena on syntynyt joitakin toimivia tapoja, mutta on tulut kohdattua myös useampi vesiperä. Mutta nepä vasta ovatkin oppimiskokemuksia! Tässä blogikirjoituksessa tiivistettynä hankkeen päätösseminaarissa pitämäni esitys, jossa koottuja oppejamme hankkeen ajalta.

**

1. Fiksumpi sosiaalisen median analytiikka on ihmisen ja koneen yhteistyötä

Sosiaalisen median analytiikkaan – ja tekoälykeskusteluun laajemminkin – liittyy vahvasti laskennallisuuden rationalisointi ja ns. big data -myytti [1]: mikä tahansa numeroiksi muunnettava tieto, jota voidaan käsitellä algoritmisesti, on automaattisesti luotettavaa ja totta. Näin on varsinkin, jos taustalla on isoja aineistoja eli kaikkien himoitsemaa big dataa.

Todellisuudessa kone on yksinään aika tyhmä, ja automaattinenkin analytiikka vaatii yleensä algoritmin opettamista ja yhteistyötä ihmisen kanssa. Opettaminen tapahtuu esimerkiksi luokittelemalla useita satoja tai tuhansia esimerkkiviestejä halutun kysymyksen mukaisesti. Projektissa esimerkiksi koulutimme algoritmia tunnistamaan ydinvoimaan myönteisesti tai kielteisesti suhtautuvia viestejä. Tehtävä ei ole helppo, sillä ihmisten kannat ovat monipolvisia: “Ydinvoima on OK, mutta Rosatom ei.”

Matemaatikko ja data scientist Cathy O’Neil muistuttaa kirjassaan ja Ted Talk -puheenvuorossaan algoritmien vinoutumisesta: algoritmit automatisoivat status quo -tilaa, sillä ne rakentuvat aina historiallisen datan ja sen rakenteen päälle. Maailma ei ole täydellinen, ja sen epätäydellisyys heijastuu myös koneoppimiseen ja tekoälyyn. Siksi rinnalle tarvitaan ihmisajattelua arvioimaan algoritmien oikeellisuutta ja vaikutuksia.

2. Fiksumpi someanalytiikka vaatii mietittyä datan esikäsittelyä

Automaattiseen tekstianalytiikkaan piiloutuu paljon valintoja. Niiden tekeminen alkaa jo aineiston rajauksesta: harvoin on laskentaresursseja tutkija kaikkea saatavilla olevaa dataa, joten se pitää ensimmäiseksi rajata tietyillä hakusanoilla. Millä sanoilla saadaan esimerkiksi haaviin “koko” ydinvoimakeskustelu? Jokaisessa viestissä ei välttämättä mainita ydinvoima-sanaa, vaan tärkeitä avainsanoja voivat olla esimerkiksi voimaloiden sijaintipaikat. Hakusanojen kehittely vaatii usein sekin ihmisasiantuntijan aivoja.

Oleellista on myös ymmärtää käytössä olevan datan mahdolliset rajoitukset ja niiden vaikutukset analyysiin. Esimerkiksi tutkimuskäyttöön luovutettu Suomi24-aineisto on periaatteessa koko aineisto, mutta tietokantavirheen vuoksi aineistosta puuttuu paljon viestejä vuosilta 2004-2005. Tällainen kuoppa näkyy jokaisessa aineistosta piirrettävässä aikajanassa, ja sitä tuijottaessaan tutkija tulee helposti tehneeksi virheellisiä tulkintoja keskusteluaiheen katoamisesta ellei aineiston koostumus ole tiedossa.

Analyysialgoritmit vaativat usein myös aineiston esikäsittelyä. Suomen kielen kohdalla se tarkoittaa esimerkiksi aineiston perusmuotoistamista, joka vie aikaa ja resursseja. Lisäksi tekstimassasta poistetaan tyypillisesti yleisimmät, merkityksettömät sanat eli ns. stopwordit. Niiden poistaminen on kuitenkin samalla myös valinta siitä, mikä on merkityksellistä ja mikä ei. Kiveen hakattuja ohjeita tai yleisesti hyväksyttyä listaa ei kuitenkaan ole olemassa, vaan ratkaisuja tehdään tapauskohtaisesti. Tiedossa on, että  poistettujen sanojen lista vaikuttaa lopulliseen analyysiin, mutta on epäselvää millä tavoin.

3. Fiksumpi sosiaalisen median analytiikka tarvitsee ymmärrystä alustoista ja niiden kulttuureista

Laskemisen ja big datan huumassa on helppoa unohtaa laadullisen analyysin ja kulttuurisen ymmärryksen merkitys. Sosiaalisen median keskusteludata on hyvin kontekstuaalista dataa, jonka syntymiseen vaikuttaa paitsi yhteiskunta ympärillä, myös alustan teknologia ja kyseiselle alustalle muodostunut alakulttuuri. Palstoille voi esimerkiksi syntyä oma slangi ja hyvinkin erikoistunutta sanastoa. Suomen kielen käsittelijä ei välttämättä tunnista verkossa syntyviä uussanoja saatika tuttujen sanojen erikoisia käyttötapoja. Esimerkiksi keppihevonen tarkoittaa toisaalla oikeasti keppihevosta, mutta toisaalla tietynlaista poliittista diskurssia.

Lisäksi automaattisen tekstianalytiikan on osoitettu olevan hyvin kontekstiriippuvaista. Erot tulevat ilmi varsin pienissäkin muutoksissa: Yhdysvalloissa senaatin ylähuoneen puheesta koostuvalla aineistolla koulutettu luokittelualgoritmi ei enää toimikaan alahuoneen puhetta analysoitaessa [2]. Vuoden 2005 ruokapuhetta käsittelevä algoritmi ei pärjää tarpeeksi hyvin vuoden 2015 uuden kielen ja sanaston kanssa.

Myös monet teknologian tuottamat artefaktit muodostuvat hankalaksi automaattiselle analytiikalle. Esimerkiksi monella keskustelufoorumilla viestit lähetetään anonyymisti, jolloin kirjoittajana näkyy “Vierailija”. Kuin vierailija vastaa näihin vierailijan viesteihin lainaamalla niitä, syntyy ketjuja, joissa on hämmentävän monta kertaa mainittu sana vierailija. Lopputuloksena esimerkiksi ohjaamaton aihemallinnus erottaa datasta aiheen, jossa puhutaan kovasti vierailijoista. Sen todellinen olemus ei avaudu kuin esimerkkiviestejä lukemalla.

4. Fiksumpi sosiaalisen median analytiikka on vähemmän mustia laatikoita

Viimeinen ja ehkä tärkein fiksumman sosiaalisen median analytiikan väittämä liittyy analyytikan tekemiseen ja palveluiden ostamiseen. Ala rakentuu tällä hetkellä hämmentävän vahvasti erilaisten mustien laatikoiden ympärille; käytössä on teknologioita ja algoritmeja, jotka on hienosti paketoitu tekoälyksi, mutta todellisuudessa niiden takana ovat samat kontekstiin, kieleen ja validiteettiin riippuvat ongelmat kuin yllä mainituissa esimerkeissä. Monet organisaatiot mittaavat esimerkiksi Facebookista suoraan saatavaa engagement-lukua ymmärtämättä täysin, mistä siinä oikeastaan on kysymys. Analytiikkayrityksen kauppaama keskustelun sentimenttiä kuvaava hieno piirakkadiagrammi ostetaan tyytyväisenä kyseenalaistamatta analyysissa käytettyä algoritmia.

Tämä ei tarkoita, että kaikki tehty automaattinen analytiikka olisi automaattisesti virheellistä. Mutta se tarkoittaa sitä, että analytiikan tekijöiltä vaaditaan lisää avoimuutta käytettyjen menetelmien sekä niiden heikkouksien suhteen sekä sitä, että analytiikan ostajat osaavat kysyä tarkentavia kysymyksiä mustan laatikon sisuksista. Kysymys on lopulta kielenkäytöstä: samalla tavalla kuin lääkärin on osattava selventää diagnoosi potilaalle, on datatieteilijän ja analytiikkayrittäjän osattava selittää analyysin kulku kansankielellä asiakkaalleen. Lääkärivertaus on myös sikäli osuva, että sosiaalisen median keskusteludiagnostiikka on sekään harvoin eksaktia tiedettä, pikemminkin konventioita ja estimaatteja. Pelissä on aina mukana epävarmuuselementti, jonka kanssa on vain elettävä.

Tiivistettynä kolmeen ohjenuoraan: mitä on #smartersome?

  1. Älä aliarvioi ihmistulkintaa. Sille on varattava aikaa, jos aineistosta haluaa liiketoimintahyötyjä.
  2. Vietä päivä etnografina. Selvitä oman toimialasi kannalta oleellisimmat areenat ja tavat mitata keskustelua.
  3. Älä osta mustia laatikoita. Kysy ja selvennä, mitä menetelmät tekevät. Kysy niin kauan, kunnes ymmärrät.

 

**
Lähteet:

[1] Desrosières, A. (2001). How Real Are Statistics? Four Posssible Attitudes. Social Research, 68(2), 339–355.
Beer, D. (2017). Envisioning the power of data analytics. Information, Communication & Society, 21(3), 1–15.
Couldry, N. (2014). The Myth of Big Data. In Schäfer, M. T., & Van Es, K. (Eds.). The datafied society : studying culture through data. Amsterdam: Amsterdam University Press. Retrieved from http://oapen.org/search?identifier=624771
[2] Yu, B., Kaufmann, S., & Diermeier, D. (2008). Classifying Party Affiliation from Political Speech. Journal of Information Technology & Politics, 5(1), 33–48. 

Algorithmic Systems, Strategic Interaction, and Bureaucracy

What do algorithmic systems and bureaucracy have in common?

I gave on algorithmic systems, strategic interaction, and bureaucracy in the Making Sense of Algorithmic Systems symposium at the Annual Social Psychology Conference in Helsinki on November 18, 2017. The talk lays out early ideas in a domain that is (relatively) new for me. These have been developed in collaboration with Matti Nelimarkka, Jesse Haapoja, Juho Pääkkönen & others – but all mistakes are mine.

To accompany the slides above, here are the key ideas from the talk:

What might post-interaction HCI (Human–Computer Interaction) look like? This is a conceptual shift we are grappling with and trying to make sense of – focusing on direct and observable interaction between one individual and one device feels less and less sufficient (although those interactions, too, remain important). Inspired by Alex Taylor’s thoughts, I like to think of city bike systems as one example that pushes us to think about socio-technical systems and data in new ways.

The more we talk about algorithmic systems, the more we need to ask ourselves to be precise about how exactly they are different from socio-technical systems more broadly. Algorithms, data, artificial intelligence and machine learning are words I’ve heard awfully often this year — and there are problems with how they are used in public (and academic) conversations. There is lots of fear-mongering as well as moments when systems are narrated to hold more power and capabilities than they actually have etc.

One things that seems to be clear is that all things digital and the datafication of everything is attracting a lot of attention in a variety of fields – and critical researchers are already on it, too! There has been a proliferation of critical studies of algorithms and data over the past years. This reading list, collected by Nick Seaver and Tarleton Gillespie is one fantastic place to start from if you’d like to get a glimpse of what is going on. Moreover, we need to keep asking questions about what algorithms are and in what way(s) they are interesting. One important observation underlying the shift to talk about algorithmic systems rather than algorithms on their own is the fact that algorithms don’t exist in isolation. On this account, I recommend Algorithms and their Others, written by Paul Dourish.

Another source of inspiration for me has been this popular piece on the similarities between bureaucracy and algorithmic systems: Rule by Nobody. The analogy does not work 1:1, of course, but there is something to it. And this points to where I think social psychology has an opening to step in and speak up: our field has a lot of expertise on social interactions (also strategic ones) and organizations. These are needed in conversations about algorithmic systems.

For theoretical bases to work on algorithmic systems and strategic interaction, I recommend as a less known book by Erving Goffman, Strategic Interaction. It is a microsociological take of game theory! As I see it, there are (at least) two levels worth thinking about here: First, computer-mediated communication, including questions about how does social interaction play out in the context of algorithmic systems and how do individuals and groups use these systems in strategic ways in interacting with others? Second, human–computer interaction, with questions about how individuals and groups ”game the algorithm” and work around systems that are making it hard for them to accomplish their goals. Here, one might think about Uber drivers strategizing with one another (and against the company and its app) to make more money, but also about the kinds of workarounds that have long been observed as part of the ”normal” repertoire of how people make socio-technical systems work. Goffman’s work gives us tools to consider how individuals can interact with algorithmic systems (and with one another in the presence of these systems) in active, purposeful ways, rather than the dopes fooled by black boxes that popular accounts sometimes make us to be! But we need to be careful in considering what we can take from this work, focused on rich interactional settings (face-to-face).

When it comes to algorithmic systems and bureaucracy, Max Weber’s scholarship is one obvious candidate to work with. I, however, am intrigued to revisit Michel Crozier’s work, especially the book The Bureaucractic Phenomenon, as a resource for thinking about interactions with algorithmic systems. Crozier’s work challenges perspectives that overemphasize the rational organizational structure of bureaucracy, and places emphasis on the strategic efforts of different stakeholders within these organizational systems. Looking at algorithmic systems from this point of view allows for analysing strategic interactions on the system level in a manner that does not do away with the impact of networked systems but also keeps us focused on the possible tensions between the different human actors. Here, too, we need to be careful in applying old tricks to a new show, since as Minna Ruckenstein pointed out in the symposium, the rules in bureaucracies are typically public knowledge whereas this tends not to be the case with proprietary algorithms.

(Finally, while this talk deals with another domain, most of my recent research deals with the so-called sharing economy. If you’d like to hear more, I’d be happy to hear from you. For my academic papers, take a look at my Scholar profile.)

 

Algoritminen julkisuus on vinoutunutta kyborgijulkisuutta

2453788025_fd51aeb4d9_z
(cc) runran @Flickr

Teknologia nähdään helposti neutraalina tiedonvälittäjänä. Moni viestinnän ammattilainen ei tiedä, miten teknologia toimii tai miten sen kanssa pitäisi toimia. Meidän pitäisi kuitenkin olla yhä tietoisempia siitä, miten esimerkiksi algoritmit meitä  tulevaisuudessakin ohjaavat.

“Software is, in other words, a part of a ‘technological unconscious’ (Clough, 2000), a means of sustaining presence which we cannot access but which clearly has effects, a technical substrate of unconscious meaning and activity.” (Thrift, 2005)

Maantieteilijä-sosiologi Sir Nigel Trift on käyttänyt teknologisen tiedostamattoman käsittettä kuvaamaan teknologian ja ohjelmistojen vaikutusta eräänlaisena sosiaalisen elämän kehikkona, joka tiedostomattomasti vaikuttaa toimintaamme.

Viestinnän ja julkisuuden näkökulmasta teknologisen tiedostamattoman käsite kuvaa kahta asiaa: Ensinnäkin niitä informaatioteknologian tuntemattomia ominaisuuksia ja tapoja, jotka muokkaavat arkea ja erityisesti media-arkeamme, mutta joista emme useinkaan ole kovin tietoisia. Toisaalta käsite muistuttaa siitä, että monella viestinnän ammattilaisella ei ole tarpeeksi tietoa siitä miten teknologia lopulta toimii tai miten sen kanssa pitäisi toimia.

Teknologinen tiedostamaton määrittelee monella tapaa sitä, miten julkisuus muotoutuu. Keskeisin tämän hetken julkisuuden rakennuspalikka on newsfeed, uutisvirta, joka eri palveluissa jäsentää verkon sisältöjä pyrkien maksimoimaan huomion ja palvelussa vietetyn ajan. Käytännössä tämä tapahtuu erilaisten algoritmien avulla: pienet tietokoneohjelmat tai laskukaavat ohjaavat sisällön esittämistä aiempaan käyttäytymiseemme perustuen.

Huolestuttavaa on, että teknologia nähdään neutraalina tiedonvälittäjänä. Vuoden 2017 Edelman Trust Barometerissä vastaajat arvioivat hakukoneet kaikkein luotettavimmaksi tiedonlähteeksi. Perinteisen median luottamus puolestaan on romahtanut. Teknologia vaikuttaa puolueettomalta ja virheettömältä toimijalta samalla kun perinteinen media nähdään eliitin käsikassarana.

Algoritmit ovat kuitenkin tasan yhtä hyviä kuin mekin. Ihmisten toimintatavat, vinoumat ja virhekäsitykset siirtyvät suoraan niihin joko ohjelmoinnin tai koneoppimisen kautta. Hakukone suoltaa sisältöä, josta se arvelee etsijän pitävän aiemman verkkokäyttäytymisen perusteella. Teknologia tuottaa kaikukammioita, koska ihmiset ovat sosiaalisessa toiminnassa tyypillisesti mieluten oman viiteryhmänsä kanssa. Työnhakualgoritmi syrjii tummaihoisia. Microsoftin tekoälybotti jouduttiin ottamaan pois linjoilta, kun se oppi päivässä suoltamaan rasistista vihapuhetta Twitterin elämänkoulussa.

Sisältöjen kohdentamisessa ja teknologiajättien bisnesmallina vinotkin algoritmit kuitenkin toimivat hyvin. Facebook tahkoaa rahaa 6,4 miljardin dollarin liikevaihdolla. Käyttäjämäärät suosituissa sosiaalisen median palveluissa jatkavat kasvuaan, ja alustat tuottavat uusia toimintamuotoja, joilla pyritään maksimoimaan niissä vietetty aika. Julkisuuden ja demokratian kannalta kuitenkin ongelmallista on, että algoritmi ei osaa tehdä eroa eri sisältöjen välillä. Se tarjoilee samalla logiikalla kenkiä, lääkkeitä ja politiikkaa. Syyskuussa 2017 Facebookissa pystyi esimerkiksi kohdentamaan mainoksia suoraan juutalaisvihaajille.

Rahalla siis saa. Bisneslogiikan nimissä samaan aikaan mediayhtiöt ovat huomanneet, että Facebookin algoritmi näyttää entistä vähemmän mediatalojen postauksia niiden seuraajille. Sen sijaan se painottaa sosiaalisuutta ja engagementtia: newsfeedissä näkyy todennäköisimmin sisältöjä, joita kaverisi ovat jakaneet, tykänneet tai kommentoineet. Faktoilla ei tässä pelissä ole arvoa. Sen sijaan tunteilla ja epärehellisyydellä on.

Tämä logiikka on voimalain logiikkaa (Matthew effect). Mikä tahansa tahmainen, ihastuttava tai vihastuttava sisältö päätyy todennäköisemmin näytetyksi, ja sisällön suosio kasvaa entisestään. Siksi julkisuudestamme muodostuu väistämättä tunnejulkisuus, joka etenee kohusta toiseen. Teknologinen tiedostamaton on siis lopulta hybridiä ihmisyyttä, julkisuuden muodostumista kyborgitoimijoiden kautta.

Viestinnän ammattilaisen näkökulmasta huolestuttavaa on se, että teknologian edistämä logiikka hiipii myös niihin tapoihin, joilla viestintää tehdään ja mittareihin, joilla sitä mitataan. Klikkien tuijottamisesta on kenties päästy piirun verran eteenpäin, mutta nyt uusi mittari, jota kaikki maanisesti tuijottavat on sisällön aikaansaama sitoutuminen, engagament.

Se on muuten Facebookin kaupallista menestymistä varten tehty mittari.

Mitäpä jos pakasta napatun mittarin sijasta viestinnän ammattilaiset itse rohkeasti määrittelisivät, mitä on hyvä viestintä, mitä on vaikuttavuus ja miten sitä halutaan mitata?

– –
Salla-Maaria Laaksonen (VTT) on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.

Blogikirjoitus on rinnakkaispostaus Viesti ry:n blogista. ja perustuu HY+:n ja Viesti ry:n Viestinnän tulevaisuus -tilaisuudessa 26.9.2017 pidettyyn puheenvuoroon.

Algoritmit uutisissa: ensimmäisiä havaintoja

Minua kiinnosti kuinka suomenkielisessä mediassa puhutaan algoritmeistä, tekoälystä ja koneoppimisesta; tuosta tämän päivän maagisesta taikuudesta. Ensimmäinen yllätykseni on, että ensimmäinen osuma varsin laajassa media-aineistossamme on vuodelta 1994! Noin muutekin hämmennyin kun Aamulehden uutisoinnissa ei ole selkeää tihentymää tai määrän kasvua – uutisointi on ollut erittäin aktiivista jo vuodesta 2000. Yleisradiolla sen sijaan nähdään selvästi, kuinka uutisointi on kasvanut noin 2012 vuodesta erittäin paljon, mutta sitä ennen uutisissa nämä taikasanat ovat olleet enemmänkin sivuhuomioita.

Screenshot 2017-07-12 16.42.20
Aamulehden uutiset missä on sana algoritmi, tekoäly tai koneoppiminen
Screenshot 2017-07-12 16.42.09
Yleisradion uutiset missä on sana algoritmi, tekoäly tai koneoppiminen

 

Havaitsimme Aamulehden olleen poikkeuksellisen aktiivinen algoritmiuutisoinnissaan jo 2000-luvun alkupuolella, kun Yle siitä villiintyi vasta 2010-luvun puolella. Selvää kuitenkin on, että 2010-luvulla algoritmeistä puhutaan merkittävästi enemmän kuin 2000-luvulla.

Aiheiden osalta käytimme aina yhtä trendikästä aihemallinnusta ja uutisaineistosta löytyikin 41 erilaista aihetta – jotka selkeyden takia luokittelimme kymmeneen ryhmään:

  1. Pelit ja peliarvostelut
  2. Tekniikan kehitys, esimerkiksi itsestään ajava auto sekä tekoäly
  3. Elokuvat, viihde ja taide
  4. Kaupalliset palvelut ja niiden algoritmit
  5. Tutkimus algoritmeistä
  6. Tietoturvallisuus
  7. Ohjelmoinnin opetus peruskoulussa
  8. Työllisyys ja työelämän murros
  9. Algoritmien kaupallinen arvo
  10. Algoritmit ja maailmanpolitiikka
timeline.png
Algoritmit uutisissa teemoittain

Havainnoimalla eri teemojen näkyvyyttä mediassa huomaamme, että 2000-luvun alusta tähän päivään on tapahtunut siirtymä viihteistä ja peleistä erityisesti kaupallisten palveluiden algoritmien pohdiskeluun ja esimerkiksi algoritmien vaikutukseen työelämässä.

Temaattinen muutos on tervetullut algoritmisten järjestelmien yhteiskunnallisen merkittävyyden takia, mutta yhteiskuntatieteissä juuri nyt trendikäs kriittinen algoritmitutkimus ei ainakaan tämän analyysin perusteella ollut erityisesti esillä. Ehkäpä peruskoulun ohjelmointiopetuksessa kannattaisi käyttää myös muutama tunti pohtimaan teknologian valtaa eikä vain yrittää oppia ohjelmoinnin alkeita?

Kiitämme Yleisradiota sekä Alma mediaa tutkimukseen käytettyjen aineistojen tuomisesta käyttöömme. Perinteisestihän Suomessa on aina tutkittu Helsingin Sanomia, mutta heidän kautta media-aineistoa ei ole saatavilla.