Ennakkotieto: Rajapintapäivät 2018

rajapintalogo150px01round-reunatRajapintapäivät 2018 järjestetään Espoon Otaniemessä 15.-16.11.2018. Lisätietoja seuraa alkusyksystä, mutta merkitse päivä kalenteriisi jo nyt! // Rajapinta Days 2018 will be organized November 15-16. More details tba, but save the date before heading to summer holidays!

Rajapintapäivät on avoin ja maksuton tapahtuma kaikille, jotka ovat kiinnostuneita yhteiskuntatieteellisestä teknologian tutkimuksesta tai digitaalisten ja laskennalisten menetelmien käytöstä yhteiskuntatieteissä.

Perjantaina 16.11. järjestetään epäkonferenssi (unconference), joka on avoin ja osallistumiseen pohjaava tapahtuma, jonka agenda muodostuu osallistujien yhteistyössä. Kaikki teknologiaa, yhteiskuntaa ja digitaalisia menetelmiä yhdistävät tai kehittävät aiheet ovat erinomaisen tervetulleita mukaan!

Torstaina 15.11. on varattu syvemmin yhteen teemaan keskittyville työpajoille, joita osallistujat saavat myös ehdottaa.

Call for proposals julkaistaan alkusyksystä.

– –

Rajapinta Days 2018, our annual unconference will be organized in Otaniemi, Espoo 15.-16.11.2018. The event is open for all interested in the study of digital and computational social sciences and digital methods.

Friday 16.11. is an unconference day, which builds upon the ideas and proposals of the participants. Thursday 15.11. is reserved for longer workshops.

More details and the call for proposals will be posted in fall.

Mitä on fiksumpi sosiaalisen median analytiikka?

4601859272_4228421089_z
Kuva: (cc) Matt Wynn

Sosiaalisen median analytiikka pyörii yhä enimmäkseen asiasanahakujen ja niiden seurannan ympärillä. Miten kehittyneemmät tekstianalytiikan menetelmät voivat olla hyödyksi ymmärtämään, mistä keskusteluissa on kyse? Mitä reunaehtoja ja epävarmuuksia suurten lupausten automatiikkaan liittyy?

 

Tekesin rahoittama tutkimushankkeemme Smarter Social Media Analytics päättyi toukokuun lopussa. Tutkimushankkeessa pengoimme yli miljardin viestin sisältävää Futusomen somekeskusteluaineistoa automaattisen analytiikan keinoin ja selvitimme, miten keskusteludata rinnastuu muihin aineistoihin, muun muassa Taloustutkimuksen kyselydataan ja SOK:n tuotteiden myyntilukuihin.

Olemme hankkeen aikana testanneet lukuisia erilaisia ohjatun ja ohjaamattoman koneoppimisen muotoja. Lopputuloksena on syntynyt joitakin toimivia tapoja, mutta on tulut kohdattua myös useampi vesiperä. Mutta nepä vasta ovatkin oppimiskokemuksia! Tässä blogikirjoituksessa tiivistettynä hankkeen päätösseminaarissa pitämäni esitys, jossa koottuja oppejamme hankkeen ajalta.

**

1. Fiksumpi sosiaalisen median analytiikka on ihmisen ja koneen yhteistyötä

Sosiaalisen median analytiikkaan – ja tekoälykeskusteluun laajemminkin – liittyy vahvasti laskennallisuuden rationalisointi ja ns. big data -myytti [1]: mikä tahansa numeroiksi muunnettava tieto, jota voidaan käsitellä algoritmisesti, on automaattisesti luotettavaa ja totta. Näin on varsinkin, jos taustalla on isoja aineistoja eli kaikkien himoitsemaa big dataa.

Todellisuudessa kone on yksinään aika tyhmä, ja automaattinenkin analytiikka vaatii yleensä algoritmin opettamista ja yhteistyötä ihmisen kanssa. Opettaminen tapahtuu esimerkiksi luokittelemalla useita satoja tai tuhansia esimerkkiviestejä halutun kysymyksen mukaisesti. Projektissa esimerkiksi koulutimme algoritmia tunnistamaan ydinvoimaan myönteisesti tai kielteisesti suhtautuvia viestejä. Tehtävä ei ole helppo, sillä ihmisten kannat ovat monipolvisia: “Ydinvoima on OK, mutta Rosatom ei.”

Matemaatikko ja data scientist Cathy O’Neil muistuttaa kirjassaan ja Ted Talk -puheenvuorossaan algoritmien vinoutumisesta: algoritmit automatisoivat status quo -tilaa, sillä ne rakentuvat aina historiallisen datan ja sen rakenteen päälle. Maailma ei ole täydellinen, ja sen epätäydellisyys heijastuu myös koneoppimiseen ja tekoälyyn. Siksi rinnalle tarvitaan ihmisajattelua arvioimaan algoritmien oikeellisuutta ja vaikutuksia.

2. Fiksumpi someanalytiikka vaatii mietittyä datan esikäsittelyä

Automaattiseen tekstianalytiikkaan piiloutuu paljon valintoja. Niiden tekeminen alkaa jo aineiston rajauksesta: harvoin on laskentaresursseja tutkija kaikkea saatavilla olevaa dataa, joten se pitää ensimmäiseksi rajata tietyillä hakusanoilla. Millä sanoilla saadaan esimerkiksi haaviin “koko” ydinvoimakeskustelu? Jokaisessa viestissä ei välttämättä mainita ydinvoima-sanaa, vaan tärkeitä avainsanoja voivat olla esimerkiksi voimaloiden sijaintipaikat. Hakusanojen kehittely vaatii usein sekin ihmisasiantuntijan aivoja.

Oleellista on myös ymmärtää käytössä olevan datan mahdolliset rajoitukset ja niiden vaikutukset analyysiin. Esimerkiksi tutkimuskäyttöön luovutettu Suomi24-aineisto on periaatteessa koko aineisto, mutta tietokantavirheen vuoksi aineistosta puuttuu paljon viestejä vuosilta 2004-2005. Tällainen kuoppa näkyy jokaisessa aineistosta piirrettävässä aikajanassa, ja sitä tuijottaessaan tutkija tulee helposti tehneeksi virheellisiä tulkintoja keskusteluaiheen katoamisesta ellei aineiston koostumus ole tiedossa.

Analyysialgoritmit vaativat usein myös aineiston esikäsittelyä. Suomen kielen kohdalla se tarkoittaa esimerkiksi aineiston perusmuotoistamista, joka vie aikaa ja resursseja. Lisäksi tekstimassasta poistetaan tyypillisesti yleisimmät, merkityksettömät sanat eli ns. stopwordit. Niiden poistaminen on kuitenkin samalla myös valinta siitä, mikä on merkityksellistä ja mikä ei. Kiveen hakattuja ohjeita tai yleisesti hyväksyttyä listaa ei kuitenkaan ole olemassa, vaan ratkaisuja tehdään tapauskohtaisesti. Tiedossa on, että  poistettujen sanojen lista vaikuttaa lopulliseen analyysiin, mutta on epäselvää millä tavoin.

3. Fiksumpi sosiaalisen median analytiikka tarvitsee ymmärrystä alustoista ja niiden kulttuureista

Laskemisen ja big datan huumassa on helppoa unohtaa laadullisen analyysin ja kulttuurisen ymmärryksen merkitys. Sosiaalisen median keskusteludata on hyvin kontekstuaalista dataa, jonka syntymiseen vaikuttaa paitsi yhteiskunta ympärillä, myös alustan teknologia ja kyseiselle alustalle muodostunut alakulttuuri. Palstoille voi esimerkiksi syntyä oma slangi ja hyvinkin erikoistunutta sanastoa. Suomen kielen käsittelijä ei välttämättä tunnista verkossa syntyviä uussanoja saatika tuttujen sanojen erikoisia käyttötapoja. Esimerkiksi keppihevonen tarkoittaa toisaalla oikeasti keppihevosta, mutta toisaalla tietynlaista poliittista diskurssia.

Lisäksi automaattisen tekstianalytiikan on osoitettu olevan hyvin kontekstiriippuvaista. Erot tulevat ilmi varsin pienissäkin muutoksissa: Yhdysvalloissa senaatin ylähuoneen puheesta koostuvalla aineistolla koulutettu luokittelualgoritmi ei enää toimikaan alahuoneen puhetta analysoitaessa [2]. Vuoden 2005 ruokapuhetta käsittelevä algoritmi ei pärjää tarpeeksi hyvin vuoden 2015 uuden kielen ja sanaston kanssa.

Myös monet teknologian tuottamat artefaktit muodostuvat hankalaksi automaattiselle analytiikalle. Esimerkiksi monella keskustelufoorumilla viestit lähetetään anonyymisti, jolloin kirjoittajana näkyy “Vierailija”. Kuin vierailija vastaa näihin vierailijan viesteihin lainaamalla niitä, syntyy ketjuja, joissa on hämmentävän monta kertaa mainittu sana vierailija. Lopputuloksena esimerkiksi ohjaamaton aihemallinnus erottaa datasta aiheen, jossa puhutaan kovasti vierailijoista. Sen todellinen olemus ei avaudu kuin esimerkkiviestejä lukemalla.

4. Fiksumpi sosiaalisen median analytiikka on vähemmän mustia laatikoita

Viimeinen ja ehkä tärkein fiksumman sosiaalisen median analytiikan väittämä liittyy analyytikan tekemiseen ja palveluiden ostamiseen. Ala rakentuu tällä hetkellä hämmentävän vahvasti erilaisten mustien laatikoiden ympärille; käytössä on teknologioita ja algoritmeja, jotka on hienosti paketoitu tekoälyksi, mutta todellisuudessa niiden takana ovat samat kontekstiin, kieleen ja validiteettiin riippuvat ongelmat kuin yllä mainituissa esimerkeissä. Monet organisaatiot mittaavat esimerkiksi Facebookista suoraan saatavaa engagement-lukua ymmärtämättä täysin, mistä siinä oikeastaan on kysymys. Analytiikkayrityksen kauppaama keskustelun sentimenttiä kuvaava hieno piirakkadiagrammi ostetaan tyytyväisenä kyseenalaistamatta analyysissa käytettyä algoritmia.

Tämä ei tarkoita, että kaikki tehty automaattinen analytiikka olisi automaattisesti virheellistä. Mutta se tarkoittaa sitä, että analytiikan tekijöiltä vaaditaan lisää avoimuutta käytettyjen menetelmien sekä niiden heikkouksien suhteen sekä sitä, että analytiikan ostajat osaavat kysyä tarkentavia kysymyksiä mustan laatikon sisuksista. Kysymys on lopulta kielenkäytöstä: samalla tavalla kuin lääkärin on osattava selventää diagnoosi potilaalle, on datatieteilijän ja analytiikkayrittäjän osattava selittää analyysin kulku kansankielellä asiakkaalleen. Lääkärivertaus on myös sikäli osuva, että sosiaalisen median keskusteludiagnostiikka on sekään harvoin eksaktia tiedettä, pikemminkin konventioita ja estimaatteja. Pelissä on aina mukana epävarmuuselementti, jonka kanssa on vain elettävä.

Tiivistettynä kolmeen ohjenuoraan: mitä on #smartersome?

  1. Älä aliarvioi ihmistulkintaa. Sille on varattava aikaa, jos aineistosta haluaa liiketoimintahyötyjä.
  2. Vietä päivä etnografina. Selvitä oman toimialasi kannalta oleellisimmat areenat ja tavat mitata keskustelua.
  3. Älä osta mustia laatikoita. Kysy ja selvennä, mitä menetelmät tekevät. Kysy niin kauan, kunnes ymmärrät.

 

**
Lähteet:

[1] Desrosières, A. (2001). How Real Are Statistics? Four Posssible Attitudes. Social Research, 68(2), 339–355.
Beer, D. (2017). Envisioning the power of data analytics. Information, Communication & Society, 21(3), 1–15.
Couldry, N. (2014). The Myth of Big Data. In Schäfer, M. T., & Van Es, K. (Eds.). The datafied society : studying culture through data. Amsterdam: Amsterdam University Press. Retrieved from http://oapen.org/search?identifier=624771
[2] Yu, B., Kaufmann, S., & Diermeier, D. (2008). Classifying Party Affiliation from Political Speech. Journal of Information Technology & Politics, 5(1), 33–48. 

Taitavasti eettistä verkkotutkimusta

https://www.flickr.com/photos/janetmck/15422638442/
(cc) Janet McKnight, Flickr

Vaatii taitoa ja rohkeutta rakentaa sosiaalista mediaa hyödyntävät tutkimusasetelmat niin, että eettisen tutkimuksen ehdot täyttyvät. // Teksti on rinnakkaisjulkaisu TENK:n Vastuullinen tiede -sivustolta (CC BY 4.0).

Sosiaalinen media valtavine viestimäärineen näyttäytyy monelle tutkijalle houkuttelevana aineistopankkina, halusipa sitten tutkia ihmisten asenteita ja käyttäytymistä tai yhteiskunnallisia muutoksia. Aineistojen vapaa saatavuus ei kuitenkaan poista eettisen pohdinnan tärkeyttä.

Verkkosisältöjen tutkimuskäyttöä koskevat eettiset käytännöt ja ohjeistukset ovat kirjavia Suomessa ja kansainvälisesti. Suomessa ihmistieteiden eettisen ennakkoarvioinnin ohjeistus ei ota erikseen kantaa verkkotutkimukseen. Tutkimukseen vaikuttavat lait puolestaan ovat auttamattomasti digitaalista aikaa jäljessä. Käytännössä tutkija joutuu verkkoaineistojen kanssa toimimaan hiukan harmaalla alueella ja luottamaan omaan harkintaansa ratkaisuja tehdessään.

Tutkimuskohteena ihminen vai data?

Tutkimuseettisen neuvottelukunnan laatima ohjeistus ihmistieteiden eettisestä ennakkoarvioinnista lähtee siitä, että ihmistieteellistä tutkimusta ohjaa kolme eettistä periaatetta: tutkittavan itsemääräämisoikeuden kunnioittaminen, vahingoittamisen välttäminen sekä yksityisyyden ja tietosuojan säilyttäminen. Periaatteet viittaavat siis erityisesti tutkimuksiin, jossa tutkimuksen kohteena on ihmistoimija. Verkkoaineistojen kohdalla tyypillistä on kuitenkin ihmisen, datan ja tekstin rajan hämärtyminen.

Jos tutkimuksen fokus on sisällöissä, voidaan sosiaalisen median aineistot rinnastaa julkistetuiksi tiedoiksi tai rekisteriaineistoiksi, jolloin tutkittavien erillistä suostumusta ei vaadita. Sosiaalisen median aineistoissa tekstit kuitenkin tyypillisesti ovat yksityishenkilöiden tuottamia ja käyttäjän nimi usein näkyvillä.

Usein verkossa tutkimusta tehdään kontekstissa, jossa suostumuksen kerääminen kaikilta tutkittavilta on vaikeaa ja käytännössä jopa mahdotonta. Monilla verkkoalustoilla keskustelua käydään anonyymisti eikä esimerkiksi vanhasta aineistosta ole useinkaan mahdollista etsiä nimetynkään tekijän yhteystietoja.

Verkkotutkimuksessa tutkimuskohde on siis väistämättä häilyväinen, eikä ihmisyys olekaan kovin järkevä tapa tarkastella verkkotutkimusta. Keskeisempää on pohtia laajemmin tutkimuksen mahdollisesti aiheuttamaa haittaa, tutkittavien haavoittuvutta ja yksityisyyttä.

Kimurantti julkisuus ja yksityisyys

Verkossa julkisen ja yksityisen ero hämärtyy helposti. Sosiaalisen median kontekstissa teknisesti julkisella aineistolla tarkoitetaan kaikkien saataville julkaistuja päivityksiä esimerkiksi avoimilla keskustelualustoilla tai ryhmissä. Selkeästi yksityistä aineistoa ovat esimerkiksi tutkijalle luottamuksellisesti lähetetyt viestit sosiaalisen median kanavissa tai viestit suljetuista ryhmistä, joihin tutkijalla on pääsy.

Silti teknisesti julkistenkin viestien kohdalla on vaikea arvioida kirjoittajien käsitystä aineiston julkisuudesta. Yksityisyyden ja julkisuuden käsitteet ovat vahvasti kulttuurisidonnaisia. Lisäksi palveluiden yksityisyysasetukset muuttuvat niin usein, että tavalliselle käyttäjälle ei välttämättä ole aina selvää, mitkä viesteistä ovat julkisia ja mitkä eivät. Näin ollen tiedon julkinen saatavuus ei yksinään riitä eettiseksi periaatteeksi, vaan tutkijan on pohdittava myös tiedon tuotannon kontekstia sekä tiedon arkaluontoisuutta.

Teknisestä ja lainopillisesta näkökulmasta neuvottelukumppanina verkkoaineistojen tutkimuksessa on myös verkkoalusta, jossa sisällöt on julkaistu. Tutkijan onkin syytä tutustua verkkopalveluiden käyttöehtoihin. Ne asettavat usein reunaehtoja materiaalin tutkimuskäytölle sekä rajoittavat koneellisesti ladattavan aineiston saatavuutta joko suojellakseen käyttäjien yksityisyyttä tai omaa liiketoimintaansa. Esimerkiksi Facebookista pystyy koneellisesti lataamaan ainoastaan julkisten ryhmien ja sivujen sisältöjä, mutta yksityishenkilöiden profiileista julkisetkaan päivitykset eivät ole saatavilla. Selaimen kautta ne ovat kuitenkin nähtävissä ja helposti osa esimerkiksi verkkoetnografin aineistoa.

Teksti ja konteksti

Tutkijat ovat käsitelleet luottamuksellisia aineistoja ennen digiaikaakin, eivätkä yksityisyyden suojaamisen ongelmat ole verkkoaineistoissa perustavalla tavalla erilaisia esimerkiksi haastatteluaineistoihin verrattuna. Myös sosiaalisen median aineistoja on analyysivaiheessa mahdollista käsitellä niin, että yksityishenkilöiden anonymiteetti ja tietosuoja säilyvät. Esimerkiksi poliittisen viestinnän tutkimusprojekteissamme anonymisoimme aineistosta tavalliset käyttäjät, mutta jätimme poliitikkojen nimet näkyville.

Anonymisointi kuitenkin ratkaisee vain analysointivaiheen haasteita. Sosiaalisen median aineistojen erityispiirre on se, että vaikka tutkimuksen kohteena olisikin pelkkä teksti, on se helppo yhdistää takaisin alkuperäiseen kirjoittajaan. Yksittäisen twiitin lähettäjä löytyy helposti syöttämällä teksti hakukoneeseen. Lisäksi erilaisia aineistoja yhdistämällä anonymisoitujenkin henkilöiden tunnistaminen voi olla mahdollista.

Siksi eettiset periaatteet on pidettävä mielessä myös silloin, kun tutkimusjulkaisuun valitaan lainauksia aineistosta tai jos aineistoa halutaan avata tutkimuskäyttöön. Arkaluontoisten teemojen kohdalla tutkija joutuu punnitsemaan, näyttääkö hän lukijalle aineistonäytteitä parantaakseen argumentaatiotaan vai pyrkiikö hän turvaamaan tutkittavien anonymiteetin.

Tietoa, taitoa ja rohkeutta

Lakitekstiviidakossa ja eettisiä ohjeita tiukasti lukien on helppo tulkita, että sosiaalisen median aineistojen käyttäminen ei ole laillista tai eettisesti suotavaa. Varsinkin yhteiskuntatieteellisen tutkimuksen näkökulmasta tutkijoilta kaivataan kuitenkin paitsi ammattitaitoa, myös rohkeutta ja taitoa rakentaa sosiaalista mediaa hyödyntävät tutkimusasetelmat siten, että eettisen tutkimuksen ehdot täyttyvät. Sosiaalinen media heijastelee lukuisia yhteiskunnallisesti merkittäviä teemoja. On sääli, jos esimerkiksi yhteiskunnallista vallankäyttöä koskevista tutkimuksista pitäisi ohjeiden puuttuessa jättää digitaalinen osuus tekemättä.

Kuten kaikessa tutkimuksessa, verkkotutkimuksessa on asetelmia, jotka eettisistä syistä tulisi jättää toteuttamatta. Tutkimuksen tutkittaville aiheuttamat haitat ja seuraukset ovat kuitenkin kontekstin määrittämiä tekijöitä, minkä vuoksi yleispätevien ohjeiden antaminen on mahdotonta. Eettisen pohdinnan avuksi löytyy kuitenkin erilaisia apuvälineitä esimerkiksi tämän kirjoituksen viitteistä – erityisesti verkkotutkimuksen kansainvälisen yhdistyksen Association of Internet Researchers AoIR:n julkaisema eettinen ohjeistus on erinomainen apu tutkijalle.

Salla-Maaria Laaksonen on tutkija Helsingin yliopistossa.

Lisätietoja:

  • AoIR (2012). Ethical decision-making and Internet research: Version 2.0. Recommendations from the AoIR Ethics Working Committee. Final Draft; Association of Internet Researchers. (pdf)
  • Östman, S., & Turtiainen, R. (2016). From research ethics to researching ethics in an online specific context. Media and Communication, 4(4), 66–74.
  • Tikka, Minttu (2014) Tutkija nuorten mediamaailmassa: tutkimuseettisiä kysymyksiä. Nuorisotutkimus vol. 32(3).
  • Turtiainen R, Östman S. (2013). Verkkotutkimuksen eettiset haasteet: Armi ja anoreksia. Kirjassa: Laaksonen S-M, Matikainen J, Tikka M. (toim.) Otteita verkosta. Verkon ja sosiaalisen median tutkimusmenetelmät. Tampere: Vastapaino, s. 49–67.

Slämärit ja superkäyttäjät: ihmeellinen Internet tutkijan työpöydällä

 

https://www.flickr.com/photos/meddygarnet/8346190491/
(cc) Morgan @Flickr

Smarter Social Media Analytics -tutkimushankkeessa sovellamme ja kehitämme erilaisia koneoppimiseen pohjautuvia menetelmiä sosiaalisen median tekstisisältöjen analysointiin. Fiksumpi  analyysi kuitenkin vaatii algoritmien rinnalle ihmisilmää – vähintäänkin kehitysvaiheessa.

Olen lukenut eilen ja tänään  SSMA-hankkeemme aineistosta läpi parintuhannen viestin otoksen, jossa viestit koskevat kasvissyöntiä tavalla tai toisella. Otos liittyy koko aineistosta tehtyyn aihemallinnukseen, jossa noin puolen miljoonan viestin massasta on ohjaamattoman koneoppimisen avulla erotettu erilaisia topiikkeja tai teemoja. Mallinnuksen syötteenä skripti antaa kasan perusmuotoistettuja sanalistoja, jotka kuvaavat näitä erilaisia aiheita. Lopulta kuitenkin ainoa tapa varmistaa, että tehty analyysi toimii kuten pitää, on ihmisvoimin tarkistaa mistä topiikeissa oikeastaan on kysymys. Tämä tapahtuu esimerkkiviestejä tarkistamalla.

Tarkistuskeikka on pieni matka yhä vain ihmeelliseen Internetiin. Sosiaalisen median tutkimuksen parasta antia ovat usein juuri näkymät vuorovaikutuksen maailmoihin, joita ihmiset verkossa elävät ja tuottavat mikrotasolla. Tässä kaksi hienoa esimerkkiä kasvisruokakeskusteluista.

**

Viestejä läpikäydessä olen kohdannut kymmeniä erilaisia virtuaalislämäreitä. Omassa nuoruudessani slämäri oli vihko, jossa jokaisella sivulla oli eri kysymys ja vastaukset kirjattiin tietyllä symbolilla tai anonyymisti. Nykypäivän slämäri on keskustelupalstalla kiertävä lista numeroituja kysymyksiä, johon kukin kirjoittaja vastaa, tai lista [ ] väittämiä, joista [x] rastitaan kirjoittajaan sopivat kohdat. Arvioin kirjoittajien olevan enimmäkseen melko nuoria.

Tällaiset memeettiset sisällöt ovat toistuvia, mutta kuitenkin niin monipuolisia tekstimuotoja, ettei sanojen yhdessä esiintymisen perusteella aiheita luokitteleva algoritmi osaa niitä niputtaa. Virtuaalislämäreissä kuitenkin kiertää kasvisyöntiä koskevia kysymyksiä, joiden vuoksi kaikki nuo tuhannet viestit näkyvät jokaisessa kasvissyönti-sanalla tehdyssä haussa tai tietyllä sanalla piirretyissä trendikuvaajissa. Toki ne osaltaan trendistä kertovatkin; kasvissyönti puhututtaa.

Toinen ihmettelyn aihe oli aihemallinnuksessa erästä topiikkia kuvaava sana, joka ei ollut mikään suomen kielen tunnistettava sana. Pienen selvittelyn jälkeen paljastui, että kyseessä on yksi Suomi24-foorumin superaktiivinen käyttäjä, joka kirjoittaa palstalle joka päivä keskimäärin kolmetoista viestiä päivässä.

Viestimäärä on ilmeisen tarpeeksi, että saa aikaan oman aiheen aihemallinnuksessa, kun muut käyttäjät mainitsevat kyseisen nimimerkin tarpeeksi usein. Selvästi siis onnistunut keskustelunherättäjä ja oman mikroyleisönsä julkkis, jonka viesteillä voi olla suurikin vaikutus keskustelujen aihepiiriin.

**

Molemmat esimerkit ovat sellaisia, joita on hankala automaattisesti tekstin seasta erottaa ilman laadullista tarkastelua, tai vähintäänkin sen tekeminen vaatisi melkoisia tapauskohtaisia virityksiä koodiin. Viritykset taas ovat varsinkin tuotantokäytössä aika hankalia ja toisaalta tekevät analyysista prosessin, jonka toimintaperiaatteita on vaikea ymmärtää ja tuloksia tulkita.

Silti ne ovat aika oleellisia mikrotason havaintoja siitä dynamiikasta, jolla vuorovaikutus verkossa muodostuu.

Kohti fiksumpaa keskustelujen mallinnusta siis pyritään, mutta todellisuus on aina vaan analytiikkaa ihmeellisempää. Se on jotenkin lohdullista.

Digitaalisen yhteiskunnan rajapinnoilla -luentosarja Tiedekulmassa 30.10.-11.12.

labyrinthclassroom_2435823037_7853d39e69_z
(cc) Karl-Ludwig Poggemann @Flickr

Rajapinta ry. järjestää yhdessä Helsingin yliopiston Kuluttajatutkimuskeskuksen kanssa luentosarjan Digitaalisen yhteiskunnan rajapinnoilla Helsingin yliopiston Tiedekulmassa 30.10.–11.12.2017 aina maanantaisin klo 13.15-14.45. Luennot ovat kaikille avoimia ja ne välitetään myös suorana verkkoon – tervetuloa kuulolle!

Luentosarja pureutuu digitaalisuuden yhteiskunnallisiin vaikutuksiin eri näkökulmista. Digitaalisuus ja teknologiset laitteet ovat muodostuneet erottamattoksi osaksi arkeamme. WhatsAppissa lähetetään yhdessä minuutissa 21 miljoonaa viestiä ja pyyhkäistään lähes miljoona kertaa Tinderissä. Suomessa tehdään päivittäin 30 miljoonaa Google-hakua. Vaalikeskustelut käydään vaaliteltan sijasta Twitterissä. Luentosarja kysyy, miten digitalisoituminen vaikuttaa sosiaalisen ja yhteiskunnalliseen toimintaan? Minkälaisia poliittisia, taloudellisia ja kulttuurillisia kytköksiä teknologian taustalla on? Teemoista alustavat teknologiayhteiskuntatieteilijät sekä organisaatioiden edustajat.

Helsingin yliopiston opiskelijat voivat suorittaa luentosarjan kurssina, jolloin suoritukseen kuuluu myös lukupiirisessio luentojen jälkeen.

Kurssin ohjelma:

*** 30.10. Introluento: Mitä on digitaalinen yhteiskuntatiede? [tallenne]

Mika Pantzar & Minna Ruckenstein (Kuluttajatutkimuskeskus)
Mika Pantzar luennoi kuluttajakansalaisen arjesta datataloudessa ja kertoo, miksi digitaalisesta kannattaa olla kiinnostunut? Vielä muutama vuosikymmen sitten mobiilin tietoyhteiskunnan visioissa kuluttaja näyttäytyi liike-elämälle lähinnä uutuuksien ja tiedon virran vastaanottajana. Internetin, sosiaalisen median ja kaikkialla mukana kulkevien digitaalisten laitteiden myötä käsitys kuluttajasta on kääntynyt päälaelleen. Kuluttajasta on tullut taloudellisen arvonmuodostuksen tärkein lähde. Minna Ruckenstein valottaa digitaalisen kulttuurin ja sosiaalisuuden tutkimuksellisia lähtökohtia.

*** 6.11. Identiteetti, addiktio ja teknologia [tallenne]

Suvi Uski (tutkija, Someturva) & Eeva Raita (Futurice Oy)
Suvi Uskin aiheena on yksilön identiteetti ja teknologia- Yksilön toiminta digitaalisissa ympäristössä ei pääse eroon ihmisen psykologian lainalaisuuksista. Luento pureutuu tutkimustietoon sekä tällä hetkellä tarjolla olevaan ongelma-avaruuteen, joka koskettaa kaikkia digitaalisissa ympäristöissä toimivia. Eeva Raita puhuu teemasta “Kokemus, addiktio ja mobiiliteknologia”: Jokaisen menestyvän digitaalisen palvelun takana on syvällinen ymmärrys ihmisten kokemuksellisuudesta. Luennolla keskustellaan siitä miten, miksi ja millä seurauksilla kokemus on noussut teknologian kehittämisen keskiöön.

*** 13.11. Näkökulmia politiikkaan ja teknologiaan [tallenne]

Matti Nelimarkka (Aalto-yliopisto & Helsingin yliopisto) & Minerva Krohn (Helsingin kaupunki, digitalisaatiotoimikunta)
Käsittelemme luennolla kahta laajaa teemaa: (1) teknologian käyttöä politiikassa erilaisten demokratiaa ja politiikkaa käsittelevien normatiivisten käsitysten kautta sekä
(2) puramme teknologian ja politiikan suhdetta toistensa muovaajina.

*** 20.11. Sosiaalinen vuorovaikutus ja yhteistoiminta verkkoalustoilla [tallenne]

Airi Lampinen (Tukholman yliopisto) & Vilma Lehtinen (Skhole Oy)
Sosiaalinen ja taloudellinen vuorovaikutus nivoutuvat yhteen alustapalveluiden avulla järjestettävässä toiminnassa. Esimerkkejä tästä ovat jakamistalous ja joukkoistaminen. Luennolla digitalisoitunutta sosiaalisuutta tarkastellaan vuorovaikutuksen, yhteisöjen ja yhteistoiminnan näkökulmasta

*** 27.11. Alustatoimijat ja datatalous [tallenne]

Tuukka Lehtiniemi (Aalto-yliopisto & Turun yliopisto) & Pauli Aalto-Setälä (Aller Media Oy)
Ihmisiä koskevasta datasta, henkilödatasta, on tullut digitaalisessa taloudessa keskeinen arvonluonnin raaka-aine. Tästä hyvänä esimerkkinä ovat verkon alustapalvelut. Luennolla kuvataan alustatoimijoiden keskeiseen asemaan johtaneita tekijöitä sekä avataan viimeaikaisia pyrkimyksiä ymmärtää datatalouden toimintalogiikkaa. Allerin Pauli Aalto-Setälä kertoo Allerin data-analyytikasta ja RIkastamo-projektista.

*** 4.12. Algoritmit, julkisuus ja media [tallenne]

Salla-Maaria Laaksonen (Helsingin yliopisto) & Jarno Koponen (YLE)
Julkisuus muotoutuu yhä enemmän mediateknologian muodostamassa ympäristössä, jossa viestien välitystä ja leviämistä säätelevät toisenlaiset logiikat kuin perinteisen mediajulkisuuden aikana. Luennolla avataan, miten teknologia ja ihmistoimijat yhdessä rakentavat hybridiä verkkojulkisuutta ja siellä liikkuvia diskursseja. Jarno Koponen Yeisradiolta avaa mikä on YLEn Uutisvahti ja kertoo muista discovery-ratkaisuista uutiskäyttäjän näkökulmasta.

*** 11.12. Teknologiavälitteinen kansalaisuus

Veikko Eranti (Tampereen yliopisto) & Johannes Koponen (Demos Helsinki)
Millaisia mahdollisuuksia ja haasteita vuorovaikutuksen, viestinnän ja politiikan teknologiavälitteisyys aiheuttavat kansalaisuuteen? Miten meitä kontrolloidaan ja miten voimme itse hyödyntää teknologiaa poliittisessa toiminnassa? Tällä luennolla pohditaan, millaisia ovat poliittinen toimijuus ja kansalaisuus teknologiavälitteisessä maailmassa.

 

Algoritminen julkisuus on vinoutunutta kyborgijulkisuutta

2453788025_fd51aeb4d9_z
(cc) runran @Flickr

Teknologia nähdään helposti neutraalina tiedonvälittäjänä. Moni viestinnän ammattilainen ei tiedä, miten teknologia toimii tai miten sen kanssa pitäisi toimia. Meidän pitäisi kuitenkin olla yhä tietoisempia siitä, miten esimerkiksi algoritmit meitä  tulevaisuudessakin ohjaavat.

“Software is, in other words, a part of a ‘technological unconscious’ (Clough, 2000), a means of sustaining presence which we cannot access but which clearly has effects, a technical substrate of unconscious meaning and activity.” (Thrift, 2005)

Maantieteilijä-sosiologi Sir Nigel Trift on käyttänyt teknologisen tiedostamattoman käsittettä kuvaamaan teknologian ja ohjelmistojen vaikutusta eräänlaisena sosiaalisen elämän kehikkona, joka tiedostomattomasti vaikuttaa toimintaamme.

Viestinnän ja julkisuuden näkökulmasta teknologisen tiedostamattoman käsite kuvaa kahta asiaa: Ensinnäkin niitä informaatioteknologian tuntemattomia ominaisuuksia ja tapoja, jotka muokkaavat arkea ja erityisesti media-arkeamme, mutta joista emme useinkaan ole kovin tietoisia. Toisaalta käsite muistuttaa siitä, että monella viestinnän ammattilaisella ei ole tarpeeksi tietoa siitä miten teknologia lopulta toimii tai miten sen kanssa pitäisi toimia.

Teknologinen tiedostamaton määrittelee monella tapaa sitä, miten julkisuus muotoutuu. Keskeisin tämän hetken julkisuuden rakennuspalikka on newsfeed, uutisvirta, joka eri palveluissa jäsentää verkon sisältöjä pyrkien maksimoimaan huomion ja palvelussa vietetyn ajan. Käytännössä tämä tapahtuu erilaisten algoritmien avulla: pienet tietokoneohjelmat tai laskukaavat ohjaavat sisällön esittämistä aiempaan käyttäytymiseemme perustuen.

Huolestuttavaa on, että teknologia nähdään neutraalina tiedonvälittäjänä. Vuoden 2017 Edelman Trust Barometerissä vastaajat arvioivat hakukoneet kaikkein luotettavimmaksi tiedonlähteeksi. Perinteisen median luottamus puolestaan on romahtanut. Teknologia vaikuttaa puolueettomalta ja virheettömältä toimijalta samalla kun perinteinen media nähdään eliitin käsikassarana.

Algoritmit ovat kuitenkin tasan yhtä hyviä kuin mekin. Ihmisten toimintatavat, vinoumat ja virhekäsitykset siirtyvät suoraan niihin joko ohjelmoinnin tai koneoppimisen kautta. Hakukone suoltaa sisältöä, josta se arvelee etsijän pitävän aiemman verkkokäyttäytymisen perusteella. Teknologia tuottaa kaikukammioita, koska ihmiset ovat sosiaalisessa toiminnassa tyypillisesti mieluten oman viiteryhmänsä kanssa. Työnhakualgoritmi syrjii tummaihoisia. Microsoftin tekoälybotti jouduttiin ottamaan pois linjoilta, kun se oppi päivässä suoltamaan rasistista vihapuhetta Twitterin elämänkoulussa.

Sisältöjen kohdentamisessa ja teknologiajättien bisnesmallina vinotkin algoritmit kuitenkin toimivat hyvin. Facebook tahkoaa rahaa 6,4 miljardin dollarin liikevaihdolla. Käyttäjämäärät suosituissa sosiaalisen median palveluissa jatkavat kasvuaan, ja alustat tuottavat uusia toimintamuotoja, joilla pyritään maksimoimaan niissä vietetty aika. Julkisuuden ja demokratian kannalta kuitenkin ongelmallista on, että algoritmi ei osaa tehdä eroa eri sisältöjen välillä. Se tarjoilee samalla logiikalla kenkiä, lääkkeitä ja politiikkaa. Syyskuussa 2017 Facebookissa pystyi esimerkiksi kohdentamaan mainoksia suoraan juutalaisvihaajille.

Rahalla siis saa. Bisneslogiikan nimissä samaan aikaan mediayhtiöt ovat huomanneet, että Facebookin algoritmi näyttää entistä vähemmän mediatalojen postauksia niiden seuraajille. Sen sijaan se painottaa sosiaalisuutta ja engagementtia: newsfeedissä näkyy todennäköisimmin sisältöjä, joita kaverisi ovat jakaneet, tykänneet tai kommentoineet. Faktoilla ei tässä pelissä ole arvoa. Sen sijaan tunteilla ja epärehellisyydellä on.

Tämä logiikka on voimalain logiikkaa (Matthew effect). Mikä tahansa tahmainen, ihastuttava tai vihastuttava sisältö päätyy todennäköisemmin näytetyksi, ja sisällön suosio kasvaa entisestään. Siksi julkisuudestamme muodostuu väistämättä tunnejulkisuus, joka etenee kohusta toiseen. Teknologinen tiedostamaton on siis lopulta hybridiä ihmisyyttä, julkisuuden muodostumista kyborgitoimijoiden kautta.

Viestinnän ammattilaisen näkökulmasta huolestuttavaa on se, että teknologian edistämä logiikka hiipii myös niihin tapoihin, joilla viestintää tehdään ja mittareihin, joilla sitä mitataan. Klikkien tuijottamisesta on kenties päästy piirun verran eteenpäin, mutta nyt uusi mittari, jota kaikki maanisesti tuijottavat on sisällön aikaansaama sitoutuminen, engagament.

Se on muuten Facebookin kaupallista menestymistä varten tehty mittari.

Mitäpä jos pakasta napatun mittarin sijasta viestinnän ammattilaiset itse rohkeasti määrittelisivät, mitä on hyvä viestintä, mitä on vaikuttavuus ja miten sitä halutaan mitata?

– –
Salla-Maaria Laaksonen (VTT) on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.

Blogikirjoitus on rinnakkaispostaus Viesti ry:n blogista. ja perustuu HY+:n ja Viesti ry:n Viestinnän tulevaisuus -tilaisuudessa 26.9.2017 pidettyyn puheenvuoroon.

Keskustelukuplia ja kaikukammioita – missä on demokratian dialogi verkossa?

AmitBorade_17841847105_778599506a_z
(cc) Amit Borade @Flickr

Blogikirjoitus on rinnakkaispostaus Oikeusministeriön #suomi100-blogista.

Yhteiskunnallisen verkkokeskustelun kuplautuminen on ollut vahvasti huolenaiheena julkisessa keskustelussa. Onko teknologia, jonka piti mahdollistaa kaikkien kansalaisten osallistuminen yhteiskunnalliseen keskusteluun, sittenkin sulkenut meidät kaikukammioihin huutelemaan samanmielisten kanssa?

Kuplakeskustelun avasi Eli Pariser (2011) kirjallaan Filter Bubbles, jossa hän osoitti, kuinka eri puolueita kannattavat käyttäjät saavat hakukoneesta samalla hakusanalla aivan erilaisia tuloksia. Samaa ilmiötä on kauhisteltu muun muassa Facebookin kohdalla. Yleisradion toimittaja loi muukalaisvihamielisen feikkiprofiilin Facebookiin ja osoitti, miten muutamassa kuukaudessa käyttäjä sulkeutui vihakuplaan.

Kuplautumisen taustalla on teknologiajättien bisneslogiikka, jossa pyrkimyksenä on maksimoida käyttäjän palveluissa viettämä aika. Uutisvirta ei harjoita journalistista harkintaa, vaan oppii aiemmasta käyttäytymisestä. Facebookissa on tuhansia eri attribuutteja määrittämässä uutisvirtaamme sisältöä – mitä valtaosa käyttäjistä ei edes tiedosta. Sen sijaan he kehittävät luovasti erilaisia sosiaalisia perusteluja sisältöjen piiloutumiselle.

Kuplissa ei kuitenkaan ole kysymys ainoastaan teknologiasta. Sosiaalipsykologia on pitkään tarkastellut sosiaalisen identiteetin muodostumista ja ryhmien merkitystä. Ryhmässä mielipiteet yhtenäistyvät ja ryhmä alkaa suosia omaa ryhmäänsä toisten ryhmien kustannuksella. Lisäksi meillä on vahva taipumus tykästyä ärsykkeisiin, joille altistumme toistuvasti. Kun luemme samaa sisältöä uudelleen ja uudelleen, se alkaa tuntua normaalilta ja hyväksyttävältä.

Kuplautuminen on siis luonnollista, mutta on selvää, että viestintäteknologialla on sitä tukevia ominaisuuksia. Sosiaalinen media mahdollistaa sen, että samalla tavalla ajattelevat ihmiset voivat päätyä kaikukammioihinsa jakamaan virheellisiä väitteitä keskenään myös omaa lähituttavien piiriä laajemmalle.

Kuplasta ulos pääseminen vaatii työtä. Informaatiotulvan keskellä on mahdollista etsiä kattavasti eri mielipiteitä ja vertailla niitä. Käytännössä ihmiset eivät kuitenkaan tee niin, vaan tyytyvät ensimmäisiin tarjokkaisiin. Edelmanin luottamustutkimuksen mukaan hakukoneiden puolueettomuuteen luotetaan enemmän kuin uutismediaan.

Kuplilla pelotteluun liittyy kuitenkin riski siitä, että kaikki verkossa käytävä keskustelu latistetaan kuplissa tapahtuvaksi arvottomaksi huuteluksi, johon teknologia meidät ajaa. Verkkokeskusteluissa käydään myös asiallista poliittista keskustelua ja nostetaan esille kansalaisten huolia. Kuplat tai algoritmit eivät tee niistä vähemmän todellisia. Teknologia ei ole irrallinen yhteiskunnasta eikä mullista sitä kertaheitolla, vaikka vastuuta halutaan mielellään sälyttää teknologialle.

Algoritmeilla ja teknologialla pelottelun sijaan meidän tulisi paremmin ymmärtää niiden hybridi luonne: algoritmit ovat tasan yhtä hyviä kuin mekin. Ihmisten toimintatavat ja virhekäsitykset siirtyvät niihin ohjelmoinnin tai koneoppimisen kautta. Hakukone ja uutisvirrat suoltavat sisältöä, josta ne arvelevat etsijän pitävän aiemman verkkokäyttäytymisen perusteella. Teknologia tuottaa kaikukammioita, koska ihmiset ovat sosiaalisessa toiminnassa mieluiten oman viiteryhmänsä kanssa. Tekoälybotti oppii päivässä rasistiseksi vihapuhujaksi muita Twitter-käyttäjiä seuraamalla. Työnhakualgoritmi syrjii tummaihoisia, koska se oppii käyttäytymismallin aiemmasta aineistosta.

Kupla- ja algoritmikauhistelun sijasta tarvitsemme paitsi sosiaalipsykologista ymmärrystä omasta toiminnastamme, myös algoritmilukutaitoa: ymmärrystä siitä, miten julkisuus rakentuu sosiaalis-teknologisena järjestelmänä, ja miten voimme itse siihen vaikuttaa. Kriittisyys sisältöjä ja lähteitä kohtaan on tärkeää. Tieto kannattaa aina varmistaa monesta eri lähteestä, eikä hakukonekaan ole puolueeton. Omia ennakkoluulojaan voi haastaa etsiytymällä tarkoituksella toisen sosiaalisen ryhmän keskusteluihin. Siihen teknologia tarjoaa parempia mahdollisuuksia kuin paperimedia.

_________________________________________________

Salla-Maaria Laaksonen (VTT) on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella. Laaksonen on tutkinut muun muassa yritysmainetta, digitaalista vaalijulkisuutta ja organisoitumista verkossa.

Lue lisää:
•    Tristan Harris: How a handful of tech companies control billions of minds every day  
•    TechCrunch: Ultimate Guide to the News Feed
•    Edelman 2017 Trust Barometer