Koronavirus ja numeroiden tenho

https://www.flickr.com/photos/k0rry/8216995942/
(cc) Korry Benneth Flickr

Maailma on päätynyt poikkeustilaan uuden koronaviruksen vuoksi. Sen vaikutukset heijastuvat myös digitaaliseen arkeen ennennäkemättömällä tavalla. Digitaalisessa viestinnässä näkyy paitsi kansalaisten huoli, myös tarve järkeistää kriisiä numeroiden ja tilastojen avulla.

Keskeinen strategia globaalissa viranomaisviestinnässä on ollut epidemiatilanteeseen liittyvien numeroiden julkaiseminen: montako tartuntaa todettu, montako kuollutta, montako parantunutta. Samaan aikaan on alkanut käydä selväksi ja väistämättömäksi, että terveydenhuoltojärjestelmän haaviin osuu vain osa tartunnoista. Virusta löytyy myös täysin oireettomilta (esim. tutkimukset Hollannissa ja muualla) ja toisaalta monet tartunnan saaneet ovat vähäoireisia eivätkä siksi päädy hakeutumaan hoitoon.

Numeroiden julkaisu, niiden visualisointi kartalle ja kuvaajien piirtäminen on tärkeä ja luonteva tapa paitsi seurata epidemiaa, myös luoda kuvaa siitä, että tilanne on hallinnassa. Tätä toisintavat yhtä lailla niin viranomaiset, media kuin kansalaisetkin.

Lukuisat yhteiskuntatietelijät ovat kirjoittaneet numeroiden ja niihin perustuvan datan merkityksestä arjen ja yhteiskunnan hallinnassa, organisoitumisessa ja viestinnässä. Esimerkiksi tieteenhistorioitsija Theodore Porter [1] kirjoittaa luottamuksesta numeroihin yhteiskunnallisena käytänteenä, joilla rakennetaan objektiivisuutta ja puolueettomuutta. Samalla mittaukset ovat performatiivisia, rakentavia: ne luovat yhteiskuntaa, jota mitataan. Tämä pätee erityisesti esimerkiksi väestötiedon ja taloudellisen tiedon tuottamiseen [2]. Tieteenfilosofi Ian Hacking [3] kirjoittaa kriittisesti numerofetissistä: numeroita kerätään vain koska voidaan, mutta siitä huolimatta niitä aletaan käyttää ongelmanratkaisun välineenä.

Koronaviruksen tapauksessa lukuja käytetään helposti myös maiden ja alueiden keskinäiseen vertailuun. Sosiologi David Beer [4] muistuttaakin numeroiden usein kehystyvän paitsi havaintojen luokitteluun, myös kilpailuun kapitalismissa. Tässä tapauksessa kilpailu on kenties sitä, kuka maa pystyy parhaiten estämään taudin leviämistä. Mittaustavat kuitenkin vaihtelevat maittain ja ajankohdittain, mikä hankaloittaa vertailujen tekemistä. Reunaehdoista huolimatta numerot helposti alkavat elää omaa elämäänsä: karkaavat alkuperäisestä kontekstista ja tehokkaasti piilottavat sen, miten niitä on tuotettu.

Kiinnostavinta viime päivien verkkojulkisuudessa ovat olleet erilaiset rogue-tilastot, laskelmat ja kuvaajat, joilla erilaiset kansalaisyhteiskunnan toimijat ovat pyrkineet haastamaan virallista tilannekuvaa ja viranomaisten toimenpiteitä. Sekä suomenkielisessä että kansainvälisessä sosiaalisessa mediassa on tullut vastaan lukuisia twiittajia ja bloggaajia, jotka pyörittävät omia laskelmiaan siitä millä käyrällä koronatartuntojen kanssa mennään, montako kuollutta meillä on pääsiäiseen mennessä ja miten rajoituskeinot toimivat.

Nämä viestit ovat vakuuttavia ja vetoavia, vaikuttavat asiantuntevalta ja niitä jaetaan helposti. Viestit rakentavat teknologian taianomaisuuden ja suurten lupausten päälle [5,6], mikä tekee niistä pelottavan tehokkaita. Maallikko harvoin uskaltaa epäillä tai väittää vastaan tilastoille ja mallinnuksille.

Sama logiikka on toki läsnä viranomaisviestinnässä ja tieteellisessä viestinnässä, mutta ainakin tietoa tuottavilla tahoilla on takanaan ymmärrys epidemioiden luonteesta ja käytössään kansainvälisessä yhteistyössä valmistellut data ja vertaisarvioituun tutkimukseen perustuvat mallit. On vähän syitä olettaa, että maallikko pystyisi ajattelemaan tai löytämään jotakin sellaista, mitä asiantuntijat eivät. Tällaisessa tilanteessa myös tieto ja tilannekuva muuttuvat koko ajan, ja tuorein tieto on todennäköisesti juuri viranomaisten saatavilla.

Ehkä tässä tilanteessa olisi parasta siis jättää numerot ja visualisoinnit asiantuntijoille. Tämän ehdotuksen ovat muutkin verkossa jo esittäneet hieman suorasanaisemmin:


Disclaimer:
Koska verkkokeskustelu käy tällä hetkellä kuumana, todettakoon vielä että en ole itsekään epidemologi vaan verkkoviestinnän ja teknologian tutkija. En siis tällä kirjoituksella kritisoi viranomaisten tekemää tapausten seurantaa tai seurantatapoja, vaan huomioin yhteiskuntatieteellisestä näkökulmasta yleisemmin kiinnostavaa numeroiden ja tilastojen käyttötapaa globaalin kriisin keskellä.

Kirjallisuutta;
[1] Porter, T. M. (1995). Trust in Numbers: The Pursuit of Objectivity in Science and Public Life. Princeton: Princeton University Press. https://doi.org/10.1017/CBO9781107415324.004

[2] MacKenzie, D., Muniesa, F., & Siu, L. (2007). Do Economists Make Markets? On the Performativity of Economics. Princeton and Oxford: Princeton University Press.
[3] Hacking I. (1990) The Taming of Chance. Cambridge: Cambridge University Press.
[4] Beer, D. (2016). Metric power. Metric Power. https://doi.org/10.1057/978-1-137-55649-3
[5] Beer, D. (2019). The Data Gaze: Capitalism, Power and Perception. London: SAGE. https://doi.org/10.4135/9781526463210
[6] Bowker, G., & Star, S. L. (2000). Sorting things out. MIT press.

Facebook-kirppikset ja k√§ytettyjen vaatteiden myyntisivustot muuttivat shoppailua ‚Äď kuluttajia ohjaa tuotteiden laatu ja j√§lleenmyyntiarvo

Tiedätkö, mikä on ollut viime vuosien nopeimmin kasvava vaatekategoria? Käytetyt vaatteet. Verkossa toimivat käytettyjen vaatteiden jälleenmyyntipalvelut ja sosiaalisen median kiihdyttämä kirpputoritoiminta ovat lisänneet kuluttajien kiinnostusta myydä omia käytettyjä (ja jopa käyttämättömiä) vaatteitaan ja ostaa niitä muilta. Selvityksen mukaan käytettyjen vaatteiden markkinan kasvun taustalla ovat ennen kaikkea nuoret kuluttajat, joiden kiinnostus käytettyjen vaatteiden ostamista ja myymistä kohtaan saattaa jopa vähentää kiinnostusta ostaa vaatteita uutena.

Olemassa oleva tutkimus tarkastelee käytettyjen tuotteiden ostamista tyypillisesti joko säästämisen tai ympäristöystävällisyyden näkökulmasta. Vaikka nämä ovat tärkeitä syitä ostaa vaatteita käytettynä, halusimme selvittää, mitä muita motiiveja käytettyjen vaatteiden ostamiseen liittyy. Valitsimme tutkimuskohteeksi käytetyt luksusvaatteet ja -asusteet, joiden ostamiseen uutena liittyy erityisen paljon hedonistisia ja symbolisia motiiveja.

Haastattelimme 22 kuluttajaa, jotka ovat hiljattain ostaneet luksustuotteita toisilta kuluttajilta. Kaikki haastateltavat olivat suomalaisia 25‚Äď40-vuotiaita naisia, ja heihin oltiin yhteydess√§ luksusvaatteisiin ja -asusteisiin keskittyv√§n Facebook-kirpputorin kautta. Haastatteluaineistoa tarkasteltiin ns. ostostyylien n√§k√∂kulmasta.

Tutkimuksessa huomattiin, ett√§ k√§ytettyjen luksustuotteiden ostajia m√§√§ritt√§√§ erityisesti hinta-laatutietoisuus sek√§ arvostus k√§ytetyn tuotteen kaunista ik√§√§ntymist√§ ja sen laatua kohtaan. Laatutietoisuutta kuvailtiin esimerkiksi n√§in: ‚ÄúBr√§ndin todellisen laadun ja k√§sity√∂n n√§kee mielest√§ni vasta k√§ytettyn√§ hankituista k√§silaukuista. Laadukkuus kest√§√§ aikaa.‚ÄĚ

Lis√§ksi haastatteluaineistosta tunnistettiin uusi ostostyyli: j√§lleenmyyntiarvotietoisuus. Muun muassa t√§llaiset lausunnot kuvasivat kyseist√§ ostostyyli√§: ‚ÄúOstin t√§m√§n Chanelin huomatessani, ett√§ klassisten luksustuotteiden hinnat nousevat jatkuvasti. Myyn sen kyll√§ jossain vaiheessa, ja tied√§n, ett√§ tulen saamaan siit√§ 50% enemm√§n mit√§ alun perin itse maksoin.‚ÄĚ N√§m√§ kuluttajat kokivat olevansa vain yksi useista omistajista tuotteen elinkaaren aikana. He uskoivat, ett√§ ostamalla joko ikonisia tai nousussa olevia br√§ndej√§ he voivat saada maksamansa hinnan takaisin j√§lleenmyynnin yhteydess√§.

Vaateteollisuuden korkean ympäristökuormittavuuden huomioon ottaen tutkimuslöydökset ovat kannustavia; Ostaessaan käytettyjä tuotteita kuluttajat kiinnittävät huomiota tuotteen laatuun, kestävyyteen ja jälleenmyyntiarvoon. Verkossa toimivat kulutustavaroiden jälleenmyyntisivustot ja -palvelut ovat keskeisessä asemassa kulutustottumusten muutoksessa. Ilman toimivia käytetyn tuotteen markkinoita kuluttajat eivät löydä itseään kiinnostavia tuotteita ja voi luottaa, että saavat omat tuotteensa myytyä eteenpäin. Alan toimijoiden tulee kiinnittää huomiota tuotteiden laadun esilletuomiseen ja oikean kuluttajasegmentin löytämiseen.

Tutkimus on julkaistu International Journal of Consumer Studies -lehden marraskuun numerossa: Linda Turunen & Essi P√∂yry (2019). Shopping with the Resale Value in Mind: A Study on Second‚ÄźHand Luxury Consumers. International Journal of Consumer Studies, 43(6), 549‚Äď556.

Riidankylvämistä ja rauhanrakentamista anonyymeissa verkkokeskusteluissa

Underwater conversations by Thomas Hawk Flickr
(cc) Thomas Hawk Flickr

Ovatko verkkokeskustelut kivettyneiden asenteiden pakkotoistoa vai tuottavatko ne uudenlaisia näkökulmia tuttuihin ilmiöihin? Suomi24-foorumin parissa tehty tutkimus paljastaa ääripäät: verkkokeskustelu on yhtä aikaa likapyykkilinko ja arjen rauhankone.

Anonyymeja verkkokeskusteluja on verrattu vessakirjoitteluun, mihin viittaa Suomi24:n vakiintunut lempinimi Suoli24. Vihan lietsonta ja holtiton huutelu on verkkokeskustelun vakiintunut piirre. Keskustelu takoo eteenp√§in yhteiskuntavastaisuudella ja ihmisvihamielisyydell√§. V√§√§r√§nlaisia ihmisi√§ nimitell√§√§n ja kiusataan. ‚ÄĚSaan kirjoittaa juuri niin kuin ajattelen eik√§ tarvitse suvaitsevaisista v√§litt√§√§‚ÄĚ, kertoo Suomi24:n k√§ytt√§jille suunnatun kyselyn avovastaus. Paljastukset tyydytt√§v√§t lukijoiden uteliaisuutta ja antavat tunnevoimaa omille mielipiteille ja oikeassa olemisen tunteelle.

Verkkokysely k√§ytt√§jille oli avoinna Suomi24-keskustelualueilla kahden viikon ajan joulukuussa 2016. Vastauksia kertyi l√§hes 1400. Kyselyss√§ haettiin k√§ytt√§jien n√§k√∂kulmaa siihen, millaisena he n√§kev√§t foorumilla k√§ydyn keskustelun. Verkon likapyykkilinko on lukijoille arkista viihdett√§. T√∂rkyviestej√§ pidet√§√§n humoristisina. Toisaalta kirjoittajien reaktioita pidet√§√§n eksoottisina tai kuriositeettina. Suomi24 on k√§vij√∂ille ik√§√§n kuin lintutorni, josta bongaillaan vieraslajeja. ‚ÄĚKaipaan masokistisuuteni takia v√§lill√§ sit√§, ett√§ voin lukea perehtym√§tt√∂mien tekstej√§ ja vajota syv√§√§n ep√§toivoon‚ÄĚ, kirjoittaa yksi vastaajista. Joistakin kyselyn vastauksista huokuu ylemmyydentunne palstan kirjoittajia kohtaan, mutta toiset kuvaavat my√∂s vilpit√∂nt√§ halua ymm√§rt√§√§ tuntemattomia tai oppimattomia lajitovereita.

Kyselyn sadoista avovastauksista hahmottuu erilaisia keskustelukulttuureja. Nimittelyn ja leimaamisen rinnalla Suomi24-palstoilla el√§v√§t t√§ysin vastakkaiset pyrkimykset: kirjoittajien halu paneutua toisten ongelmiin ja kannustaa aikalaisia vaikeissa el√§m√§ntilanteissa. K√§ytt√§j√§kyselyn my√∂nteisisiss√§ Suomi24-kokemuksissa toistuu avun saaminen. Ihmisi√§ askarruttavat terveyteen, ruoanlaittoon, remontteihin. raha-asioihin ja lemmikkiel√§imiin liittyv√§t kysymykset. Kyselyyn vastanneet kiitt√§v√§t kirjoittajia, jotka aikaa ja vaivaa s√§√§st√§m√§tt√§ paneutuvat k√§yt√§nn√∂n pulmiin ja toisten ongelmiin. ‚ÄĚMonta hyv√§√§ neuvoa ja niksi√§ ois j√§√§nyt saamatta‚ÄĚ, kuvaa yksi vastaajista.

K√§ytt√§j√§kyselyn vastaukset muistuttavat verkkokeskustelun pitk√§st√§ historiasta. Ihmiset ovat hakeneet Suomi24:n palstoilta kaikupohjaa ep√§tietoisuuden ja yksin√§isyyden hetkiin jo yli viidentoista vuoden ajan. ‚ÄĚEn ole yksin‚ÄĚ, kirjoittaa yksi kyselyyn vastanneista. ‚ÄĚChatti on saattanut pelastaa vuosien varrella ihmishenki√§‚ÄĚ, arvelee toinen. Yksi kirjoittajista toteaa anonyymin verkkoviestinn√§n ansion ehk√§ viitaten seksuaaliv√§hemmist√∂jen asemaan: ‚ÄĚOlisipa nuorena ollut internet noin yleens√§. Kaikille asioille ei ollut nimi√§ 70-luvulla‚ÄĚ.

Poliittiset vaikuttajat ja virkamiehet puhuvat usein verkkokeskusteluista et√§√§lt√§ ‚Äď keskustelua k√§y ‚ÄĚsomev√§ki‚ÄĚ, jota ohjaa ‚ÄĚsomeraivo‚ÄĚ. Yhteiskunnalliseksi voimaksi tunnistettu ‚ÄĚsomekansa‚ÄĚ kulkee laumana keskustelunaiheesta toiseen. Suomi24-tutkimuksemme perusteella t√§llaista yhten√§ist√§ joukkoa ei keskustelufoorumilta l√∂ydy. Suomi24-palstat muodostavat pikemminkin keskustelujen saariston, joka kehittyy tai kuihtuu muun maailman ja eri keskustelufoorumeiden mukana. Yli kahden tuhannen palstan joukosta l√∂ytyy riitaisia, harmonisia ja yhdentekevi√§ palstoja. Osa palstoista on kuollut keskustelijoiden puutteeseen.

Someraivo ja nettiviha ‚Äď monine variaatioineen ‚Äď ovat h√§iritsevi√§ ilmi√∂it√§, jotka rikkovat yleist√§ oikeustajua. Silti niihin ei pit√§isi j√§√§d√§ kiinni. Yksinomaan vihaan ja raivoon kiinnittynyt tarkkailija p√§√§tyy helposti toistamaan nettikeskustelujen j√§hmettyneit√§ l√§ht√∂kohtia. Silloin j√§√§ n√§kem√§tt√§ keskustelun yhteiskuntaa kannatteleva voima. Kivettyneist√§ ja junnaavista asetelmista p√§√§see eteenp√§in suuntaamalla katseen verkkokeskustelujen arkisiin kuvitteluvoimiin; ihmisten loputtomaan kykyyn asettua toisten asemaan ja kannatella viesteill√§√§n arjen rauhankonetta.

Kirjoittajat: Mika Pantzar ja Minna Ruckenstein

– –

  • Harju A. (2018). Suomi24-keskustelut kohtaamisten ja t√∂rm√§ysten tilana. Media & viestint√§, 41(1). [koko teksti]
  • Pantzar M. & Ruckenstein M. (2018) Verkkokeskustelut: Riidan kylv√§mist√§ ja rauhan rakentamista. Teoksessa Autio J., Autio M., Kylkilahti E. & Pantzar M. (toim.) (2018) Kulutus ja talous – N√§k√∂kulmia yhteiskunnan muutokseen. Helsingin yliopisto, taloustieteen osaston julkaisuja 70, s. 69-76. http://hdl.handle.net/10138/297680

Pit√§isik√∂ algoritmien pelastaa meid√§t ep√§varmuudelta?

https://www.flickr.com/photos/belgapixels/2703291441/
Kuva (cc) Belgapixel @Flickr

Viimeisten vuosien aikana on puhuttu paljon algoritmien vallasta, mutta keskusteluissa esiintyy monia erilaisia näkökulmia siitä, minkälaista tuo valta oikeastaan on. Yhtäältä on keskusteltu algoritmien kyvystä rajata ja muokata ihmistoiminnan mahdollisuuksia, esimerkiksi luokittelemalla ihmisiä ja ohjaamalla tiedon kulkua [1,2,3]. Toisaalta huomiota on kiinnitetty algoritmeja koskevien käsitysten ja odotusten rooliin toiminnan ohjaamisessa [4]. Tässä kirjoituksessa pohdimme yhtä mahdollista syytä sille, miksi algoritmit ylipäätään saavat valtaa.

Michel Crozier käsittelee kirjassaan The Bureaucratic Phenomenon [5] sitä, miten byrokraattisissa organisaatioissa valtaa keskittyy henkilöille, joilla on kyky hallita organisaation toimintaan liittyvää epävarmuutta. Hän kirjoittaa esimerkiksi tehtaan koneiden huoltohenkilökunnasta ryhmänä, jolle valtaa keskittyi, koska he kykenivät vähentämään tuotantokoneisiin liittyvää epävarmuutta.

Tuotantokoneiston huoltaminen oli tehtaiden toiminnan kannalta keskeistä ja huoltohenkilökunta muodosti asiantuntijaryhmän, jolla yksin oli huoltamiseen tarvittavaa osaamista. Tämä osaaminen antoi huoltohenkilöstökunnalle strategisen etulyöntiaseman suhteessa tehtaan muihin henkilöstöryhmiin. Byrokraattisesta rakenteesta huolimatta organisaatio oli kykenemätön hallitsemaan henkilöstöryhmien epämuodollista kanssakäymistä. Tästä johtuen koneiden rikkoutumiseen liittyvän epävarmuuden hallinta loi huoltohenkilökunnalle valtaa, jota he käyttivät neuvotellessaan ryhmänsä eduista.

Crozierin analyysissa byrokraattisten organisaatioiden keskeinen pyrkimys on kontrolloida organisaation toimintaan liittyviä epävarmuuden lähteitä. Epävarmuus organisaation toiminnassa luo hallitsematonta valtaa, joka tekee byrokraattisen järjestelmän toiminnasta epätehokasta.

Yksi byrokraattisten järjestelmien toimintaan liittyvän määrällistämisen tavoitteena on etäännyttää järjestelmien toiminta subjektiivisista ihmisarvioista [6]. Sama ilmiö näkyy myös erilaisten algoritmisten sovellusten käytössä. Algoritmien toivotaan paitsi eliminoivan epävarmuuden lähteitä, myös parantavan toiminnan tehokkuutta.  Usein toiveena on, että ihmisen päätöksenteon subjektiivisuuteen tai muihin heikkouksiin liittyvät ongelmat voidaan ratkaista uusilla datapohjaiseen analytiikkaan perustuvilla teknologisilla sovelluksilla [7,8]. Tämä epävarmuuden kontrollointi näkyy tapauksissa, joissa algoritmien käyttöä perustellaan niiden systemaattisuudella tai tasalaatuisuudella, kuten esimerkiksi algoritmisen analytiikan tehokkuutta ja ennustekykyä koskevissa odotuksissa [9]. Ennustekyvyn tarkentumisen ja toiminnan tehostamisen onkin esitetty olevan nykyanalytiikkaa keskeisesti ohjaavia odotuksia [10]. Yksi käytännön esimerkki ovat itseohjautuvat autot, joiden toivotaan olevan ihmisten ohjaamia autoja turvallisempia [esim. 11]. Personalisoidun terveydenhuollon taas toivotaan tarjoavan yksilöille entistä parempia tapoja hallita terveyttään [12]. Myös esimerkiksi tekoälyn käyttö yritysten rekrytointiprosesseissa on yleistymässä. Automatisoituja rekrytointiprosesseja perustellaan vedoten tehokkuuteen ja algoritmisen arvioinnin tasalaatuisuuteen [esim. 13].

Erving Goffman on käsitellyt esseessään Where the action is? [14] kohtalokkuutta. Hän liittää käsitteen päätöksiin, jotka ovat ongelmallisia ja seuraamuksellisia. Puhtaan ongelmalliset päätökset ovat sellaisia, joissa oikea päätös ei ole selvä, mutta päätöksellä ei ole laajemman elämän kannalta juurikaan väliä. Valinta sen suhteen, mitä katsoa televisiosta, on esimerkki tällaisesta päätöksestä. Esimerkiksi päätös lähteä joka aamu töihin taas on esimerkki seuraamuksellisesta päätöksestä, jossa oikea valinta on selvä. Kotiin jäämisellä voisi olla haitallisia seurauksia, joten valinnalle lähteä töihin on selkeät perusteet. Kohtalokkaat päätökset ovat sellaisia, joissa valinnalle ei ole selkeitä perusteita, mutta sen tekemisellä on laajakantoisia seurauksia Goffmanin mukaan pyrimme järjestämään arkemme niin, että päätöksemme eivät yleensä olisi kohtalokkaita.

Sama kohtalokkuuden vähentäminen on läsnä niissä toiveissa, joita esitämme algoritmeille. Toivomme niiltä apua tilanteissa joissa oikea päätös on epäselvä. Emme kuitenkaan pysty pakenemaan kohtalokkuutta kokonaan. Päätöksillä voi aina olla ennakoimattomia seurauksia. Koska olemme aina läsnä omana, fyysisenä itsenämme, yllättävissä tilanteissa kehomme voi esimerkiksi aina vahingoittua. Kaikkeen olemiseen liittyy riskejä.

Ajatuksella kohtalokkuuden eliminoimisesta on yhtym√§kohta Crozierin byrokratia-analyysiin. Byrokraattiset j√§rjestelm√§t kehittyv√§t juuri olosuhteissa, joissa toimintaan liittyv√§√§ ep√§varmuutta pyrit√§√§n eliminoimaan. Paradoksaalisesti juuri ep√§varmuuden eliminointiin k√§ytetty menetelm√§ ‚Äď tiukka toimintaa ohjaava formaali s√§√§nn√∂st√∂ ‚Äď johtaa vallan keskittymiseen organisaation niihin osiin, joista ep√§varmuutta ei saada kitketty√§. Samaten kohtalokkuuden eliminoiminen algoritmien avulla voi johtaa vallan toimimiseen juuri niiden teknologioiden v√§lityksell√§, joilla ep√§varmuutta pyrit√§√§n hallitsemaan. T√§st√§ n√§k√∂kulmasta yksi syy sille, ett√§ algoritmeille syntyy valtaa, on pyrkimys kontrolloida ep√§varmuutta, jota ei kuitenkaan t√§ydellisesti kyet√§ hallitsemaan. Algoritmisissa j√§rjestelmiss√§ valta toimii algoritmien kautta, mutta syntyy osana laajempaa ihmistoiminnan kontekstia. N√§in ollen algoritmista valtaa voitaisiinkin kenties tutkia kysym√§ll√§, mink√§laisia ep√§varmuustekij√∂it√§ algoritmien k√§yt√∂ll√§ pyrit√§√§n hallitsemaan, ja mik√§ mahdollisesti j√§√§ hallitsematta?

Jos joku lupaa auttaa meitä tekemään aina oikean päätöksen epävarmassa maailmassa, ei ole ihme että kuuntelemme. On kuitenkin syytä kiinnittää huomiota siihen, että samalla auttajille keskittyy valtaa.

Teksti: Jesse Haapoja & Juho Pääkkönen

– –
Kiitokset kommenteista Salla-Maaria Laaksoselle, Airi Lampiselle ja Matti Nelimarkalle. Tämä teksti kirjoitettiin osana Koneen Säätiön rahoittamaa Algoritmiset järjestelmät, valta ja vuorovaikutus -hanketta.

Lukemisen datafikaatio ja uskottavuus

Yhä useampi arkipäiväinen toimintamme muutetaan erilaisten digitaalisten välineiden avulla dataksi, jota käytetään erilaisiin laskennallisiin toimiin kuten käyttäytymisemme ennakointiin ja sisältöjen personointiin. Tätä prosessia kutsutaan datafikaatioksi. Ihmiset luonnollisesti tulkitsevat tätä prosessia kuten ympäristöään ylipäätään. Tässä blogikirjoituksessa keskityn lukemisen datafikaatioon ja miten ihmiset sitä ymmärtävät.

Julkaisimme hiljattain Airi Lampisen kanssa artikkelin, jota varten haastattelin jo suljetun uutissuosittelujärjestelmä Scoopinionin käyttäjiä ja pääkehittäjää. Scoopinion oli Suomessa kehitetty uutissuosittelujärjestelmä, joka seurasi käyttäjien lukuaikaa eri uutisartikkeleissa. Se suositteli käyttäjille heitä tältä pohjalta mahdollisesti kiinnostavia artikkeleita. Scoopinionia voidaan siis pitää yhtenä esimerkkinä datafikaatiosta.

Uskottavuus ja data

Haastatteluissa nousi esiin uskottavuus: koska Scoopinion keskittyi lukuajan mittaamiseen eikä perinteisempään klikkipohjaiseen analytiikkaan, kokivat haastateltavat sen antamat suositukset luotettavammiksi. Tämä luotettavuus syntyi ajatuksesta, että lukuaika on pelkkää klikkausta parempi todiste siitä, että datan lähde on pitänyt artikkelia kiinnostavana. Lukuajan ajateltiin siis edustavan paremmin lukijan arviota artikkelista. Tämä tapa kehystää lukuaika oli toki myös se tapa, jolla järjestelmän kehittäjät pyrkivät palveluaan markkinoimaan.

Scoopinionin uskottavuus siis rakentui lukemiseen liitettyjen merkitysten varaan, joita kehittäjät käyttivät hyväkseen sekä järjestelmää rakentaessaan että sitä markkinoidessaan. Järjestelmää käyttäneet ihmiset tulkitsivat järjestelmän toimintaa lukemiseen liitettyjen merkitysten kautta. Järjestelmää tehtiin ymmärrettäväksi pohjaten näihin merkityksiin, kuten esimerkiksi siihen, että ihmiset ajattelevina olentoina arvioivat lukemaansa omien mieltymystensä mukaan ja viettävät enemmän aikaa itseään kiinnostavien tekstien parissa kuin sellaisten tekstien, jotka heitä eivät kiinnosta. Toisaalta palvelu myös toi uusia merkityksiä lukemiselle: kun palvelu seurasi lukemista, lukeminen muuttui implisiittiseksi suosittelemiseksi. Tämän seurauksena palvelu, jossa käyttäjillä ei ollut mahdollisuutta nähdä muita käyttäjiä koettiin kuitenkin tietyllä tapaa sosiaalisena.

Algoritmiset palvelut osana laajempaa merkitysjärjestelmää

My√∂s muissa algoritmisissa palveluissa ymm√§rryst√§ rakennetaan niit√§ edelt√§vien merkitysten varaan, samalla kuitenkin tuoden niihin jotain erilaista. Facebook-yst√§v√§t eiv√§t ehk√§ tarkoita t√§sm√§lleen samaa kuin ihmiset jotka koemme yst√§viksemme sen ulkopuolella, mutta palvelu k√§ytt√§√§ kuitenkin hyv√§kseen yst√§vyyteen liitettyj√§ merkityksi√§. Kun kyydityspalvelu Uber alkoi menestym√§√§n, rupesivat monet muut jakamistalouspalvelut markkinoimaan itse√§√§n tietyn asian ‚ÄúUberina‚ÄĚ: uusien palveluiden uskottavuutta menesty√§ rakennettiin Uberin menestyksen p√§√§lle. N√§m√§ palvelut nojasivat t√§ll√§ kehyst√§misell√§ Uberiin liitettyihin merkityksiin, joka puolestaan on idealtaan hyvin samankaltainen kuin sit√§ vanhemmat taksipalvelut. T√§ss√§ tapauksessa korostui Uberin lupaus tehd√§ vanha asia kustannustehokkaammin ja antaa ‚Äútavallisille‚ÄĚ ihmisille mahdollisuus hy√∂ty√§ taloudellisesti toiminnasta, joka oli aiemmin n√§hty p√§√§osin tietyn ammattiryhm√§n toimialana.

Algoritmisia järjestelmiä sosiaalitieteellisestä näkökulmasta tutkittaessa tulisi huomioida, että usein niiden käyttämää dataa ja siihen liittyviä merkityksiä on hankalaa, ellei mahdotonta, erottaa itse algoritmeista, joita järjestelmät käyttävät. Usein data edustaa palveluissa ihmistä ja tästä datasta tehdään selkoa niiden käsitysten kautta, joita ihmisten toimintaan liitetään palvelun ulkopuolella.

Järjestelmät ovat ihmisten rakentamia ja niitä ruokitaan ihmisten toiminnalla. Ne ovat siis läpeensä sosiaalisia.

Artikkeli julkaistiin ihmisen ja tietokoneen välisen vuorovaikutuksen tutkimukseen keskittyvässä NordiChi-konferenssissa ja sitä tehtiin osana Koneen Säätiön rahoittamaa Algoritmiset järjestelmät, valta ja vuorovaikutus -hanketta.

Artikkelin tiedot:
Haapoja, J., & Lampinen, A. (2018). ‘Datafied’ Reading: Framing behavioral data and algorithmic news recommendations. In NordiCHI 2018: Revisiting the Life Cycle – Proceedings of the 10th Nordic Conference on Human-Computer Interaction (pp. 125-136). DOI: 10.1145/3240167.3240194

Algoritmit, ihmiset, ja vallank√§ytt√∂

Mitä algoritmit ovat ja miksi niistä pitäisi käydä yhteiskunnallista keskustelua?

Puhuin viime perjantaina meppi Liisa Jaakonsaaren j√§rjest√§m√§ss√§¬†“√Ąl√§ el√§ kuplassa: Algoritmit ja digitaalinen sivistys EU:SSA”¬†-seminaarissa. Saatuani kutsun tulla puhumaan algoritmeista, lupasin osallistua, kunhan puhuttaisiin my√∂s ihmisist√§ ja vallank√§yt√∂st√§.

Tässä muutama keskeinen ajatus esityskalvoja täydentämään:

1. Mitä algoritmit ovat?

Perinteisen teknisen määritelmän mukaan algoritmi on kuin resepti: yksityiskohtainen kuvaus tai ohje, jota seuraamalla tehtävä, prosessi tai ongelmanratkaisu suoritetaan. Tästä kelpaa esimerkiksi vaikka jakokulma. Nykyään algoritmeista puhuttaessa viitataan kuitenkin useammin oppiviin algoritmeihin ja koneoppimiseen: algoritmit oppivat ja kehittyvät käyttämänsä datan pohjalta, eivätkä lopputulokset siten ole samalla tavalla sääntömääräisiä kuin perinteinen määritelmä antaa ymmärtää.

Yhä useammin käytetään termiä algoritminen järjestelmä viittaamaan laajempaan kokonaisuuteen, joka pitää sisällään paitsi yksittäisiä koodinpätkiä, myös laajempia tietojärjestelmiä, ihmisiä, ja organisaatioita. Algoritmit eivät ole ympäristöstään irrallisia. On myös hyvä huomata, että siinä missä nyt puhutaan algoritmeista, muutama vuosi sitten puhuttiin big datasta. Paljolti on kyse samasta asiasta.

2. Algoritmeista puhuttaessa on puhuttava myös datasta

Algoritmeja tarvitaan, jotta voidaan käsitellä suuria määriä dataa, ja algoritmit tarvitsevat dataa toimiakseen ja oppiakseen. Niinpä algoritmeista puhuttaessa on puhuttava myös datasta:  Miten dataa tuotetaan & kootaan? Miten dataa luokitellaan & käytetään? Dataa tuotetaan ja kootaan yhä enemmän ja erilaisista tilanteista. Arkinen toimintamme jättää jälkiä, usein silloinkin, kun emme ajattele olevamme tekemisissä digitaalisten systeemien kanssa.

3. Kohtaamisemme algoritmien kanssa ovat arkisia, poliittisia, ja usein huomaamattomia

Google ja muut hakukoneet auttavat meitä löytämään tarvitsemaamme tietoa. Samalla ne kuitenkin määrittävät sitä, mitä näemme ja tiedämme. Ne heijastavat käyttämänsä datan vuoksi niitä ympäröivän yhteiskunnan vääristymiä, eivätkä ne toki ole itsekään neutraaleja välikäsiä. Facebookin uutisvirran kohdalla algoritmista sisällönkäsittelyä tarvitaan valikoimaan mediatulvasta kuvia ja kirjoituksia, jotka järjestelmä arvioi yksittäistä käyttäjää kiinnostaviksi. Pyrkiessään pitämään käyttäjät pauloissaan ja löytämään meitä kiinnostavia sisältöjä, Facebook voi päätyä vahvistamaan valintojamme (yhä enemmän kissavideoita kissavideoista pitäville).

Kolmantena esimerkkinä musiikkipalvelu Spotifyssakin toimintamme tuottaa dataa, joka ohjaa sitä, mitä meille tarjotaan. Emme ehkä ajattele tuottavamme dataa musiikkia kuunnellessa, mutta valintamme ovat osaltaan mukana palautekehässä, joka vahvistaa taipumuksiamme ja ohjaa sitä, millaisia uusia sisältöjä löydämme. Neljäntenä esimerkkinä tuotamme dataa myös kaupunkipyörällä ajellessa ja monissa muissa tilanteissa, joita emme ehkä tunnista digitaaliseksi vuorovaikutukseksi. Tuottamallamme datalla voi olla poliittisia seurauksia, kun sitä käytetään järjestelmien kehittämiseen. Jos vaikkapa kaupunkipyöräjärjestelmää kehitetään datavetoisesti, saatetaan päätyä vahvistamaan palvelua siellä, missä sitä on jo helppo käyttää, sen sijaan, että suunnattaisiin voimavarat sinne, missä tarve on suurin. Kenen ääni kuuluu ja huomaammeko tekevämme jotain poliittista silloin, kun arkisen toimintamme oheistuotteena syntyy dataa?

4. Teknologiaa on helpompi muuttaa kuin kulttuuria.

Kun puhutaan algoritmeista, ollaan usein huolissaan niiden vallasta ja vääristymistä, joita ne tuottavat. Yhteiskunnan vääristymät ja virheet löytävät kuitenkin tiensä myös digitaalisiin järjestelmiin. Esimerkiksi algoritmisten järjestelmien näkyväksi tekemä syrjintä on monesti lähtöisin datasta, jota järjestelmät käyttävät ja joka heijastaa yhteiskunnan historiallisia tai vallitsevia vinoutumia. Järjestelmiä voidaan muuttaa, jotta ne eivät vahvistaisi tai ylläpitäisi syrjintää, mutta syrjinnän kitkemiseksi on muutettava yhteiskuntaa laajemmin.

5. Algoritmiset järjestelmät muistuttavat byrokratiaa.

Tämänhetkisen algoritmikohinan keskellä on hyvä miettiä, mikä näissä järjestelmissä on oikeastaan uutta. Joiltain osin algoritmit muistuttavat byrokratiaa. On siis puhuttava siitä, miten algoritmit ja ihmiset toimivat yhdessä ja millaista valtaa toimintaan kulloinkin liittyy. Uhkana on, että puhumalla algoritmien vallasta vältytään puhumasta algoritmeista vallankäytön välineenä.

Lue lisää:

Bitit ja politiikka: Tervetuloa, laskennallinen politiikan tutkimus

https://www.flickr.com/photos/videocrab/4630988238/
(cc) Kevin Simpson @Flickr

Teksti on julkaistu 8.8. ilmestyneess√§ Politiikka-lehden numerossa 2/2018 “Bitit ja politiikka” -minisymposiumin johdantona.

Tietoyhteiskuntakehitys ja teknologian muutokset ovat vaikuttaneet yhteiskuntatieteisiin, mukaan lukien politiikan tutkimukseen. Digitaalisissa toimintaympäristöissä tapahtuva poliittinen toiminta näyttäytyy houkuttelevana tutkimuskohteena ja toisaalta esimerkiksi digitaalisten alustojen ja algoritmien tutkimus nostaa esille politiikan perimmäisiä kysymyksiä vallasta (esim. Gillespie 2010; Beer 2017; Neyland ja Möllers 2016). Monet kiinnostavista kysymyksistä kytkeytyvät poliittiseen viestintään: sosiaalinen media on jo haastanut perinteisiä viestinnän portinvartijateorioita (esim. Chadwick 2014, Castells 2007) ja uudet digitaaliset viestintävälineet muuttavat kansalaisosallistumisen tapoja (esim. Bennett ja Segerberg 2013; Juris 2012). Myös marxilainen pohdinta on tehnyt paluun alustatalouden myötä tapahtuneen pääoman jakautumisen seurauksena (esim. Spencer 2018). Jo tämä  tutkimusnäkökulmien lyhyt lista osoittaa, että politiikan tutkimusperinteet ovat tärkeässä roolissa myös nykyisen digitaalisen yhteiskunnan aikana.

Digitaalisuus ei muuta vain tutkimuskohteita, vaan myös aineistoja ja menetelmiä. Digitaaliset jalanjäljet (digital trace data) ja massadata (big data) mahdollistavat uudenlaisten kysymysten esittämisen: aiemmin tutkijoilla ei ollut käytettävissä samankaltaisia yksityiskohtaisia ja laajoja aineistoja ihmisten, organisaatioiden ja liikkeiden toiminnasta, vaan tutkimuksessa on turvauduttu havainnointiin, haastatteluihin, kyselyaineistoihin ja rekisteriaineistoihin. Lazerin ja kumppaneiden (2009) mukaan uudet digitaaliset aineistot ja niitä hyödyntävät laskennalliset menetelmät ovat kuin uusi mikroskooppi yhteiskuntatieteelliseen tutkimukseen. Sekä Rob Kitchin (2014) että danah boyd ja Kate Crawford (2012) kehottavat tutkijoita kuitenkin kriittisesti arvioimaan niitä tapoja, joilla tutkimusta tehdään massadatan aikana ja sitä, kuinka laskennalliset menetelmät muokkaavat yhteiskuntatieteellistä tutkimusta. Hyvä esimerkki peräänkuulutetusta kriittisyydestä on Grimmerin ja Stewartin (2013) artikkeli, jossa he perinteisiin laadullisiin lähestymistapohin verraten pohtivat, miten tekstianalyysiä voidaan toteuttaa esimerkiksi sanojen esiintymisfrekvenssejä tarkastelemalla.

Uusien menetelmien ja aineistojen my√∂t√§ my√∂s muut tieteenalat ovat innostuneet tarkastelemaan yhteiskuntatieteellisi√§ kysymyksi√§. Justin Grimmerin (2015) mukaan laskennallisten menetelmien avulla yhteiskuntatieteellisi√§ kysymyksi√§ k√§sittelev√§t yhteiskuntatieteilij√∂iden lis√§ksi my√∂s datatietelij√§t, tietojenk√§sittelytietelij√§t ja fyysikot, usein monitieteisiss√§ ryhmiss√§. Poikkitieteellinen l√§hestymistapa helposti tukee tietynlaisia institutionalisoituneita politiikan tutkimuksen muotoja. Se voi aiheuttaa esimerkiksi behavioralistisen politiikan tutkimuksen paluun, koska perspektiivin ajatus teoriapohjaisesta mallintamisesta on yhteensopiva perinteisten laskennallisten tieteen osaajien kanssa ‚ÄĒ eiv√§tk√§ he tunne behavioralistista politiikan tutkimusta kohtaan esitetty√§ ansiokasta kritiikki√§. Toisaalta yhteiskuntatieteilij√∂iden perinteinen koulutus ei ole sis√§lt√§nyt opetusta laskennallisista menetelmist√§ ja niiden k√§yt√∂st√§. Siksi yhteiskuntatieteellisen koulutuksen ulkopuolelta on helppo tarjota n√§k√∂kantoja ja l√§hestymistapoja yhteiskuntatieteellisten kysymysten k√§sittelyyn, vaikka ne yhteiskuntatieteellisin silmin voivat n√§ytt√§√§ naiiveilta. Hanna Wallach (2018) muistuttaakin tietojenk√§sittelytieteilij√∂ille, ett√§ yhteiskuntatiedett√§ ei synny automaattisesti k√§ytt√§m√§ll√§ yhteiskuntatieteellist√§ aineistoa. Vastaavasti Grimmer (2015) argumentoi, ett√§ jos haluamme luoda yhteiskuntatieteellisemm√§n l√§hestymistavan laskennalliseen yhteiskuntatieteeseen, on v√§ltt√§m√§t√∂nt√§ ett√§ yhteiskuntatieteilij√§t ovat mukana tekem√§ss√§ ja kehitt√§m√§ss√§ laskennallisten menetelmien k√§ytt√∂√§.

Tämän symposiumin artikkelit ovat esimerkkejä tällaisesta yhteistyöstä ja menetelmäkehityksestä. Symposium koostuu kolmesta toisiaan täydentävästä tekstistä. Kaksi ensimmäistä esittelevät laskennallisten menetelmien käyttöä politiikan tutkimuksen kentällä, kolmas pohtii laskennallisten menetelmien institutionalisoitumista suomalaiseen politiikan tutkimukseen. Tekstit siis omalta osaltaan vastaavat Grimmerin (2015) ehdotukseen pyrkiä muodostamaan selkeämmin yhteiskuntatieteellisesti painottunut näkökulma laskennallisten menetelmien käyttöön ja kehitykseen.

Salla-Maaria Laaksosen ja Matti Nelimarkan artikkeli tutkii digitaalista vaalijulkisuutta vuoden 2015 eduskuntavaaleissa. Tutkimuksessa laskennallisesti analysoidaan vaalien julkisella agendalla olleet teemat ja yhdistetään saatua tietoa toisaalta poliittisen viestinnän agendatutkimuksen teorioihin ja puolueiden aiheomistajuuden analyysiin. Tuukka Ylä-Anttila, Veikko Eranti ja Anna Kukkonen taas käsittelevät katsauksessaan ilmastonmuutoksesta käytyä julkista keskustelua aihemallinnuksen avulla. Kirjoittajat käyvät läpi menetelmän reunaehtoja ja ehdottavat laadullista validointiprosessia, jonka avulla menetelmää voisi käyttää tekstien kehysanalyysina.

Molemmat tekstit tarkastelevat agendan muodostumista laskennallisesti ja osoittavat samalla, ett√§ laskennalliset menetelm√§t voivat tarjota uusia ty√∂kaluja poliittisten argumenttien tutkimiseen ja sellaisiin politiikan ja poliittisen viestinn√§n polttaviin klassisiin kysymyksiin kuten agendan rakentaminen ja teemojen kehyst√§minen. Ennen kaikkea menetelm√§t mahdollistavat t√§llaisen analyysin tekemisen paljon aiempaa laajemmilla aineistoilla. Molemmat tekstit k√§ytt√§v√§t menetelm√§n√§ ohjaamatonta koneoppimista, tarkemmin aihemallinnusta, mutta sitovat valitun menetelm√§n perinteiseen yhteiskuntatieteelliseen kysymyksenasetteluun. Lis√§ksi tekstit k√§yv√§t keskustelua laskennallisia menetelmi√§ soveltavan yhteiskuntatieteen k√§sitteiden kanssa ‚ÄĒ n√§hd√§ksemme t√§m√§ ei ole vain tarpeellinen, vaan my√∂s v√§ltt√§m√§t√∂n keskustelu.

Professori Pertti Ahonen luo katsauksessaan näkymän laskennallisten menetelmien institutionalisoitumiseen politiikan tutkimuksessa. Hän keskittyy nimenomaisesti laskennallisiin menetelmiin, joita on kehitetty politiikan tutkimuksen institutionalisoituneiden kysymysten tarkasteluun politiikan tutkijoiden toimesta. Ahonen päätyy toteamaan, että laskennallisten menetelmien käyttö politiikan tutkimuksessa on yhä sivupolku, ja varsinkin suomalaisessa politiikan tutkimuksessa melko vähäistä. Ahonen myös aiheellisesti peräänkuuluttaa syvällisempää keskustelua menetelmien filosofisista taustaoletuksista.

Menetelm√§keskustelua onkin yh√§ syyt√§ k√§yd√§, ja sit√§ tulisi k√§yd√§ poikkitieteellisesti. Poikkitieteellisyyden haasteeseen on her√§tty my√∂s tietojenk√§sittelytieteilij√∂iden joukossa (vrt. Wallach, 2018). Oleellista on, ett√§ vaikka laskennallisia menetelmi√§ voi usein soveltaa suoraan ‚Äúout of the box‚ÄĚ, ne eiv√§t ole taikalaatikoita, jotka ratkaisevat aiemmat tutkimukseen liittyv√§t ongelmat ja luotettavuuskysymykset; laadullista tarkastelua ja teorial√§ht√∂isyytt√§ tarvitaan yh√§ rinnalle. Robotti ei vie politiikan tutkijan t√∂it√§, kuten Tuukka Yl√§-Anttila ja kumppanit toteavat analyysinsa p√§√§tteeksi ‚Äď eik√§ ehk√§ datatieteilij√§k√§√§n.

Matti Nelimarkka & Salla-Maaria Laaksonen
Nelimarkka on tutkijatohtori Tietotekniikan laitoksella ja Tietotekniikan tutkimuslaitos HIIT:llä Aalto-yliopistossa ja opettaja Menetelmäkeskuksessa (Valtiotieteellinen tiedekunta, Helsingin yliopisto). Laaksonen on tutkijatohtori Kuluttajatutkimuskeskuksessa (Valtiotieteellinen tiedekunta, Helsingin yliopisto)
Lähteet

  • Beer, David. 2017. The social power of algorithms. Information, Communication & Society 20:1, 1‚Äď13.
  • Bennett, Lance ja Segerberg Alexandra. 2013. The Logic of Connective Action‚ÄĮ: Digital Media and the Personalization of Contentious Politics. Cambridge: Cambridge University Press.
  • boyd, danah ja Crawford, Kate. 2012. Critical Questions for Big Data. Information, Communication & Society 15:5, 662‚Äď679.
  • Castells, Manuel. 2007. Communication, Power and Counter-Power in the Network Society. International Journal of Communication 1:29, 238-266.
  • Chadwick, Andrew. 2013. The Hybrid Media System: Politics and Power. Oxford: Oxford University Press.
  • Gillespie, Tarleton. 2010. The politics of ‚Äúplatforms.‚ÄĚ New Media and Society 12:3, 347‚Äď364.
  • Grimmer, Justin. 2015. We Are All Social Scientists Now: How Big Data, Machine Learning, and Causal Inference Work Together. PS: Political Science & Politics 48:01, 80‚Äď83.
  • Grimmer, Justin ja Stewart, Brandon M. 2013. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis 21:3, 267‚Äď297.
  • Juris, Jeffrey. 2012. Reflections on #Occupy Everywhere: Social Media, Public Space, and Emerging Logics of Aggregation. American Ethnologist 39:2, 259‚Äď79.
  • Kitchin, Rob. 2014. Big Data, new epistemologies and paradigm shifts. Big Data & Society 1:1, 1‚Äď12.
  • Lazer, David, Pentland Alex, Adamic Lada, ym. 2009. Life in the network: the coming age of computational social science. Science 323:5915, 721‚Äď723.
  • Neyland, Daniel ja M√∂llers, Norma. 2016. Algorithmic IF ‚Ķ THEN rules and the conditions and consequences of power. Information, Communication & Society 4462, 1‚Äď18.
  • Spencer, David. 2018. Fear and hope in an age of mass automation: debating the future of work. New Technology, Work and Employment 33:1, 1‚Äď12.
  • Wallach, Hanna. 2018. Computational social science ‚Ȇ computer science + social data. Communications of the ACM 61:3, 42‚Äď44.

Mit√§ on fiksumpi sosiaalisen median analytiikka?

4601859272_4228421089_z
Kuva: (cc) Matt Wynn

Sosiaalisen median analytiikka pyörii yhä enimmäkseen asiasanahakujen ja niiden seurannan ympärillä. Miten kehittyneemmät tekstianalytiikan menetelmät voivat olla hyödyksi ymmärtämään, mistä keskusteluissa on kyse? Mitä reunaehtoja ja epävarmuuksia suurten lupausten automatiikkaan liittyy?

 

Tekesin rahoittama tutkimushankkeemme Smarter Social Media Analytics päättyi toukokuun lopussa. Tutkimushankkeessa pengoimme yli miljardin viestin sisältävää Futusomen somekeskusteluaineistoa automaattisen analytiikan keinoin ja selvitimme, miten keskusteludata rinnastuu muihin aineistoihin, muun muassa Taloustutkimuksen kyselydataan ja SOK:n tuotteiden myyntilukuihin.

Olemme hankkeen aikana testanneet lukuisia erilaisia ohjatun ja ohjaamattoman koneoppimisen muotoja. Lopputuloksena on syntynyt joitakin toimivia tapoja, mutta on tulut kohdattua myös useampi vesiperä. Mutta nepä vasta ovatkin oppimiskokemuksia! Tässä blogikirjoituksessa tiivistettynä hankkeen päätösseminaarissa pitämäni esitys, jossa koottuja oppejamme hankkeen ajalta.

**

1. Fiksumpi sosiaalisen median analytiikka on ihmisen ja koneen yhteistyötä

Sosiaalisen median analytiikkaan ‚Äď ja teko√§lykeskusteluun laajemminkin ‚Äď liittyy vahvasti laskennallisuuden rationalisointi ja ns. big data -myytti [1]: mik√§ tahansa numeroiksi muunnettava tieto, jota voidaan k√§sitell√§ algoritmisesti, on automaattisesti luotettavaa ja totta. N√§in on varsinkin, jos taustalla on isoja aineistoja eli kaikkien himoitsemaa big dataa.

Todellisuudessa kone on yksin√§√§n aika tyhm√§, ja automaattinenkin analytiikka vaatii yleens√§ algoritmin opettamista ja yhteisty√∂t√§ ihmisen kanssa. Opettaminen tapahtuu esimerkiksi luokittelemalla useita satoja tai tuhansia esimerkkiviestej√§ halutun kysymyksen mukaisesti. Projektissa esimerkiksi koulutimme algoritmia tunnistamaan ydinvoimaan my√∂nteisesti tai kielteisesti suhtautuvia viestej√§. Teht√§v√§ ei ole helppo, sill√§ ihmisten kannat ovat monipolvisia: “Ydinvoima on OK, mutta Rosatom ei.”

Matemaatikko ja data scientist Cathy O’Neil muistuttaa kirjassaan ja Ted Talk -puheenvuorossaan algoritmien vinoutumisesta: algoritmit automatisoivat status quo -tilaa, sill√§ ne rakentuvat aina historiallisen datan ja sen rakenteen p√§√§lle. Maailma ei ole t√§ydellinen, ja sen ep√§t√§ydellisyys heijastuu my√∂s koneoppimiseen ja teko√§lyyn. Siksi rinnalle tarvitaan ihmisajattelua arvioimaan algoritmien oikeellisuutta ja vaikutuksia.

2. Fiksumpi someanalytiikka vaatii mietittyä datan esikäsittelyä

Automaattiseen tekstianalytiikkaan piiloutuu paljon valintoja. Niiden tekeminen alkaa jo aineiston rajauksesta: harvoin on laskentaresursseja tutkija kaikkea saatavilla olevaa dataa, joten se pit√§√§ ensimm√§iseksi rajata tietyill√§ hakusanoilla. Mill√§ sanoilla saadaan esimerkiksi haaviin “koko” ydinvoimakeskustelu? Jokaisessa viestiss√§ ei v√§ltt√§m√§tt√§ mainita ydinvoima-sanaa, vaan t√§rkeit√§ avainsanoja voivat olla esimerkiksi voimaloiden sijaintipaikat. Hakusanojen kehittely vaatii usein sekin ihmisasiantuntijan aivoja.

Oleellista on myös ymmärtää käytössä olevan datan mahdolliset rajoitukset ja niiden vaikutukset analyysiin. Esimerkiksi tutkimuskäyttöön luovutettu Suomi24-aineisto on periaatteessa koko aineisto, mutta tietokantavirheen vuoksi aineistosta puuttuu paljon viestejä vuosilta 2004-2005. Tällainen kuoppa näkyy jokaisessa aineistosta piirrettävässä aikajanassa, ja sitä tuijottaessaan tutkija tulee helposti tehneeksi virheellisiä tulkintoja keskusteluaiheen katoamisesta ellei aineiston koostumus ole tiedossa.

Analyysialgoritmit vaativat usein myös aineiston esikäsittelyä. Suomen kielen kohdalla se tarkoittaa esimerkiksi aineiston perusmuotoistamista, joka vie aikaa ja resursseja. Lisäksi tekstimassasta poistetaan tyypillisesti yleisimmät, merkityksettömät sanat eli ns. stopwordit. Niiden poistaminen on kuitenkin samalla myös valinta siitä, mikä on merkityksellistä ja mikä ei. Kiveen hakattuja ohjeita tai yleisesti hyväksyttyä listaa ei kuitenkaan ole olemassa, vaan ratkaisuja tehdään tapauskohtaisesti. Tiedossa on, että  poistettujen sanojen lista vaikuttaa lopulliseen analyysiin, mutta on epäselvää millä tavoin.

3. Fiksumpi sosiaalisen median analytiikka tarvitsee ymmärrystä alustoista ja niiden kulttuureista

Laskemisen ja big datan huumassa on helppoa unohtaa laadullisen analyysin ja kulttuurisen ymmärryksen merkitys. Sosiaalisen median keskusteludata on hyvin kontekstuaalista dataa, jonka syntymiseen vaikuttaa paitsi yhteiskunta ympärillä, myös alustan teknologia ja kyseiselle alustalle muodostunut alakulttuuri. Palstoille voi esimerkiksi syntyä oma slangi ja hyvinkin erikoistunutta sanastoa. Suomen kielen käsittelijä ei välttämättä tunnista verkossa syntyviä uussanoja saatika tuttujen sanojen erikoisia käyttötapoja. Esimerkiksi keppihevonen tarkoittaa toisaalla oikeasti keppihevosta, mutta toisaalla tietynlaista poliittista diskurssia.

Lisäksi automaattisen tekstianalytiikan on osoitettu olevan hyvin kontekstiriippuvaista. Erot tulevat ilmi varsin pienissäkin muutoksissa: Yhdysvalloissa senaatin ylähuoneen puheesta koostuvalla aineistolla koulutettu luokittelualgoritmi ei enää toimikaan alahuoneen puhetta analysoitaessa [2]. Vuoden 2005 ruokapuhetta käsittelevä algoritmi ei pärjää tarpeeksi hyvin vuoden 2015 uuden kielen ja sanaston kanssa.

My√∂s monet teknologian tuottamat artefaktit muodostuvat hankalaksi automaattiselle analytiikalle. Esimerkiksi monella keskustelufoorumilla viestit l√§hetet√§√§n anonyymisti, jolloin kirjoittajana n√§kyy “Vierailija”. Kuin vierailija vastaa n√§ihin vierailijan viesteihin lainaamalla niit√§, syntyy ketjuja, joissa on h√§mment√§v√§n monta kertaa mainittu sana vierailija. Lopputuloksena esimerkiksi ohjaamaton aihemallinnus erottaa datasta aiheen, jossa puhutaan kovasti vierailijoista. Sen todellinen olemus ei avaudu kuin esimerkkiviestej√§ lukemalla.

4. Fiksumpi sosiaalisen median analytiikka on vähemmän mustia laatikoita

Viimeinen ja ehkä tärkein fiksumman sosiaalisen median analytiikan väittämä liittyy analyytikan tekemiseen ja palveluiden ostamiseen. Ala rakentuu tällä hetkellä hämmentävän vahvasti erilaisten mustien laatikoiden ympärille; käytössä on teknologioita ja algoritmeja, jotka on hienosti paketoitu tekoälyksi, mutta todellisuudessa niiden takana ovat samat kontekstiin, kieleen ja validiteettiin riippuvat ongelmat kuin yllä mainituissa esimerkeissä. Monet organisaatiot mittaavat esimerkiksi Facebookista suoraan saatavaa engagement-lukua ymmärtämättä täysin, mistä siinä oikeastaan on kysymys. Analytiikkayrityksen kauppaama keskustelun sentimenttiä kuvaava hieno piirakkadiagrammi ostetaan tyytyväisenä kyseenalaistamatta analyysissa käytettyä algoritmia.

Tämä ei tarkoita, että kaikki tehty automaattinen analytiikka olisi automaattisesti virheellistä. Mutta se tarkoittaa sitä, että analytiikan tekijöiltä vaaditaan lisää avoimuutta käytettyjen menetelmien sekä niiden heikkouksien suhteen sekä sitä, että analytiikan ostajat osaavat kysyä tarkentavia kysymyksiä mustan laatikon sisuksista. Kysymys on lopulta kielenkäytöstä: samalla tavalla kuin lääkärin on osattava selventää diagnoosi potilaalle, on datatieteilijän ja analytiikkayrittäjän osattava selittää analyysin kulku kansankielellä asiakkaalleen. Lääkärivertaus on myös sikäli osuva, että sosiaalisen median keskusteludiagnostiikka on sekään harvoin eksaktia tiedettä, pikemminkin konventioita ja estimaatteja. Pelissä on aina mukana epävarmuuselementti, jonka kanssa on vain elettävä.

Tiivistettynä kolmeen ohjenuoraan: mitä on #smartersome?

  1. √Ąl√§ aliarvioi ihmistulkintaa. Sille on varattava aikaa, jos aineistosta haluaa liiketoimintahy√∂tyj√§.
  2. Vietä päivä etnografina. Selvitä oman toimialasi kannalta oleellisimmat areenat ja tavat mitata keskustelua.
  3. √Ąl√§ osta mustia laatikoita. Kysy ja selvenn√§, mit√§ menetelm√§t tekev√§t. Kysy niin kauan, kunnes ymm√§rr√§t.

 

**
Lähteet:

[1] Desrosi√®res, A. (2001). How Real Are Statistics? Four Posssible Attitudes. Social Research, 68(2), 339‚Äď355.
Beer, D. (2017). Envisioning the power of data analytics. Information, Communication & Society, 21(3), 1‚Äď15.
Couldry, N. (2014). The Myth of Big Data. In Schäfer, M. T., & Van Es, K. (Eds.). The datafied society : studying culture through data. Amsterdam: Amsterdam University Press. Retrieved from http://oapen.org/search?identifier=624771
[2] Yu, B., Kaufmann, S., & Diermeier, D. (2008). Classifying Party Affiliation from Political Speech. Journal of Information Technology & Politics, 5(1), 33‚Äď48.¬†

Interventions in Surveillance Capitalism With Personal Data Spaces

This is a cross-post from Blink, the Surveillance & Society blog.

Image: Wikimedia Commons

A rather uniform logic seems to be at work behind the scenes of the digital economy: value creation is based on extracting data about users, turning data into behavioral predictions, and monetizing them through markets users cannot participate in. This logic, called ‚Äúsurveillance capitalism‚ÄĚ by Shoshana Zuboff, seems to have become institutionalized as the default mode of operation in the tech industry. To highlight how the flexibility of the market economy made surveillance capitalism possible, Zuboff quotes Thomas Piketty‚Äôs Capital in the Twenty-first Century:

‚ÄúThis will continue to be true in the future, no doubt more than ever: new forms of organization and ownership remain to be invented.‚ÄĚ

Even if surveillance capitalism is the default, the Piketty quote also indicates that new market forms will continue to be experimented in the margins of the digital economy. Discontentment with how it now works has prompted initiatives from activists and technology developers, promising to empower users to take control of their data. The MyData Global Network is an example of a movement organizing around this idea, and ‚Äúpersonal data spaces,‚ÄĚ or PDSs, are concrete technologies being developed towards this end.

In practical terms, PDSs are intermediaries that operate between their users and third parties. They offer data storage services coupled with interfaces to manage data flows, and possibilities to run code. With the data portability rulings under the new EU general data protection regulation, the regulatory environment in the EU is taking steps in a direction that favors PDSs. We will likely see more efforts towards development of PDSs in the near future, and therefore it makes sense to ask: what is the intervention that PDSs aim at?

In my recent article in Surveillance & Society, ‚ÄúPersonal Data Spaces: An Intervention in Surveillance Capitalism,‚ÄĚ I look more closely at three PDSs to analyze their imaginaries of how the digital economy should work. The three exemplars are a ‚Äúpersonal cloud server‚ÄĚ called Cozy Cloud, a ‚Äúdigital life management‚ÄĚ service called Meeco, and a ‚Äúpersonal data store‚ÄĚ called OpenPDS.

In the imaginaries of PDSs, users reap more of the benefits from data collection and use for themselves. PDSs offer users different entry points in the value creation process: starting from gathering data, into intermediating data between third parties, controlling analytics, and creating and sharing abstract information, such as intentions. Users are to become active subjects in value creation, instead of passive objects of data extraction. Users are envisioned as market participants who selectively redirect and share more, and more nuanced, data based on benefits received.
In this way, the aim of PDSs is to increase the quality and specificity of data that businesses can employ. While they do attempt to intervene in surveillance capitalism, they do not deny or counter its value creation: instead, they offer users access into the existing value creation processes.

For themselves, PDS envision a position of a platform provider that facilitates data exchanges, relying on market mechanisms to ensure that third parties develop beneficial services for users to choose from, once the technology to control data flows is in place.

‚Äď‚Äď

Lehtiniemi, T. (2017). Personal Data Spaces: An Intervention in Surveillance Capitalism? Surveillance & Society, 15(5), 626‚Äď639. You can read the article here.