Ennakkotieto: Rajapintapäivät 2018

rajapintalogo150px01round-reunatRajapintapäivät 2018 järjestetään Espoon Otaniemessä 15.-16.11.2018. Lisätietoja seuraa alkusyksystä, mutta merkitse päivä kalenteriisi jo nyt! // Rajapinta Days 2018 will be organized November 15-16. More details tba, but save the date before heading to summer holidays!

Rajapintapäivät on avoin ja maksuton tapahtuma kaikille, jotka ovat kiinnostuneita yhteiskuntatieteellisestä teknologian tutkimuksesta tai digitaalisten ja laskennalisten menetelmien käytöstä yhteiskuntatieteissä.

Perjantaina 16.11. järjestetään epäkonferenssi (unconference), joka on avoin ja osallistumiseen pohjaava tapahtuma, jonka agenda muodostuu osallistujien yhteistyössä. Kaikki teknologiaa, yhteiskuntaa ja digitaalisia menetelmiä yhdistävät tai kehittävät aiheet ovat erinomaisen tervetulleita mukaan!

Torstaina 15.11. on varattu syvemmin yhteen teemaan keskittyville työpajoille, joita osallistujat saavat myös ehdottaa.

Call for proposals julkaistaan alkusyksystä.

– –

Rajapinta Days 2018, our annual unconference will be organized in Otaniemi, Espoo 15.-16.11.2018. The event is open for all interested in the study of digital and computational social sciences and digital methods.

Friday 16.11. is an unconference day, which builds upon the ideas and proposals of the participants. Thursday 15.11. is reserved for longer workshops.

More details and the call for proposals will be posted in fall.

Mitä on fiksumpi sosiaalisen median analytiikka?

4601859272_4228421089_z
Kuva: (cc) Matt Wynn

Sosiaalisen median analytiikka pyörii yhä enimmäkseen asiasanahakujen ja niiden seurannan ympärillä. Miten kehittyneemmät tekstianalytiikan menetelmät voivat olla hyödyksi ymmärtämään, mistä keskusteluissa on kyse? Mitä reunaehtoja ja epävarmuuksia suurten lupausten automatiikkaan liittyy?

 

Tekesin rahoittama tutkimushankkeemme Smarter Social Media Analytics päättyi toukokuun lopussa. Tutkimushankkeessa pengoimme yli miljardin viestin sisältävää Futusomen somekeskusteluaineistoa automaattisen analytiikan keinoin ja selvitimme, miten keskusteludata rinnastuu muihin aineistoihin, muun muassa Taloustutkimuksen kyselydataan ja SOK:n tuotteiden myyntilukuihin.

Olemme hankkeen aikana testanneet lukuisia erilaisia ohjatun ja ohjaamattoman koneoppimisen muotoja. Lopputuloksena on syntynyt joitakin toimivia tapoja, mutta on tulut kohdattua myös useampi vesiperä. Mutta nepä vasta ovatkin oppimiskokemuksia! Tässä blogikirjoituksessa tiivistettynä hankkeen päätösseminaarissa pitämäni esitys, jossa koottuja oppejamme hankkeen ajalta.

**

1. Fiksumpi sosiaalisen median analytiikka on ihmisen ja koneen yhteistyötä

Sosiaalisen median analytiikkaan – ja tekoälykeskusteluun laajemminkin – liittyy vahvasti laskennallisuuden rationalisointi ja ns. big data -myytti [1]: mikä tahansa numeroiksi muunnettava tieto, jota voidaan käsitellä algoritmisesti, on automaattisesti luotettavaa ja totta. Näin on varsinkin, jos taustalla on isoja aineistoja eli kaikkien himoitsemaa big dataa.

Todellisuudessa kone on yksinään aika tyhmä, ja automaattinenkin analytiikka vaatii yleensä algoritmin opettamista ja yhteistyötä ihmisen kanssa. Opettaminen tapahtuu esimerkiksi luokittelemalla useita satoja tai tuhansia esimerkkiviestejä halutun kysymyksen mukaisesti. Projektissa esimerkiksi koulutimme algoritmia tunnistamaan ydinvoimaan myönteisesti tai kielteisesti suhtautuvia viestejä. Tehtävä ei ole helppo, sillä ihmisten kannat ovat monipolvisia: “Ydinvoima on OK, mutta Rosatom ei.”

Matemaatikko ja data scientist Cathy O’Neil muistuttaa kirjassaan ja Ted Talk -puheenvuorossaan algoritmien vinoutumisesta: algoritmit automatisoivat status quo -tilaa, sillä ne rakentuvat aina historiallisen datan ja sen rakenteen päälle. Maailma ei ole täydellinen, ja sen epätäydellisyys heijastuu myös koneoppimiseen ja tekoälyyn. Siksi rinnalle tarvitaan ihmisajattelua arvioimaan algoritmien oikeellisuutta ja vaikutuksia.

2. Fiksumpi someanalytiikka vaatii mietittyä datan esikäsittelyä

Automaattiseen tekstianalytiikkaan piiloutuu paljon valintoja. Niiden tekeminen alkaa jo aineiston rajauksesta: harvoin on laskentaresursseja tutkija kaikkea saatavilla olevaa dataa, joten se pitää ensimmäiseksi rajata tietyillä hakusanoilla. Millä sanoilla saadaan esimerkiksi haaviin “koko” ydinvoimakeskustelu? Jokaisessa viestissä ei välttämättä mainita ydinvoima-sanaa, vaan tärkeitä avainsanoja voivat olla esimerkiksi voimaloiden sijaintipaikat. Hakusanojen kehittely vaatii usein sekin ihmisasiantuntijan aivoja.

Oleellista on myös ymmärtää käytössä olevan datan mahdolliset rajoitukset ja niiden vaikutukset analyysiin. Esimerkiksi tutkimuskäyttöön luovutettu Suomi24-aineisto on periaatteessa koko aineisto, mutta tietokantavirheen vuoksi aineistosta puuttuu paljon viestejä vuosilta 2004-2005. Tällainen kuoppa näkyy jokaisessa aineistosta piirrettävässä aikajanassa, ja sitä tuijottaessaan tutkija tulee helposti tehneeksi virheellisiä tulkintoja keskusteluaiheen katoamisesta ellei aineiston koostumus ole tiedossa.

Analyysialgoritmit vaativat usein myös aineiston esikäsittelyä. Suomen kielen kohdalla se tarkoittaa esimerkiksi aineiston perusmuotoistamista, joka vie aikaa ja resursseja. Lisäksi tekstimassasta poistetaan tyypillisesti yleisimmät, merkityksettömät sanat eli ns. stopwordit. Niiden poistaminen on kuitenkin samalla myös valinta siitä, mikä on merkityksellistä ja mikä ei. Kiveen hakattuja ohjeita tai yleisesti hyväksyttyä listaa ei kuitenkaan ole olemassa, vaan ratkaisuja tehdään tapauskohtaisesti. Tiedossa on, että  poistettujen sanojen lista vaikuttaa lopulliseen analyysiin, mutta on epäselvää millä tavoin.

3. Fiksumpi sosiaalisen median analytiikka tarvitsee ymmärrystä alustoista ja niiden kulttuureista

Laskemisen ja big datan huumassa on helppoa unohtaa laadullisen analyysin ja kulttuurisen ymmärryksen merkitys. Sosiaalisen median keskusteludata on hyvin kontekstuaalista dataa, jonka syntymiseen vaikuttaa paitsi yhteiskunta ympärillä, myös alustan teknologia ja kyseiselle alustalle muodostunut alakulttuuri. Palstoille voi esimerkiksi syntyä oma slangi ja hyvinkin erikoistunutta sanastoa. Suomen kielen käsittelijä ei välttämättä tunnista verkossa syntyviä uussanoja saatika tuttujen sanojen erikoisia käyttötapoja. Esimerkiksi keppihevonen tarkoittaa toisaalla oikeasti keppihevosta, mutta toisaalla tietynlaista poliittista diskurssia.

Lisäksi automaattisen tekstianalytiikan on osoitettu olevan hyvin kontekstiriippuvaista. Erot tulevat ilmi varsin pienissäkin muutoksissa: Yhdysvalloissa senaatin ylähuoneen puheesta koostuvalla aineistolla koulutettu luokittelualgoritmi ei enää toimikaan alahuoneen puhetta analysoitaessa [2]. Vuoden 2005 ruokapuhetta käsittelevä algoritmi ei pärjää tarpeeksi hyvin vuoden 2015 uuden kielen ja sanaston kanssa.

Myös monet teknologian tuottamat artefaktit muodostuvat hankalaksi automaattiselle analytiikalle. Esimerkiksi monella keskustelufoorumilla viestit lähetetään anonyymisti, jolloin kirjoittajana näkyy “Vierailija”. Kuin vierailija vastaa näihin vierailijan viesteihin lainaamalla niitä, syntyy ketjuja, joissa on hämmentävän monta kertaa mainittu sana vierailija. Lopputuloksena esimerkiksi ohjaamaton aihemallinnus erottaa datasta aiheen, jossa puhutaan kovasti vierailijoista. Sen todellinen olemus ei avaudu kuin esimerkkiviestejä lukemalla.

4. Fiksumpi sosiaalisen median analytiikka on vähemmän mustia laatikoita

Viimeinen ja ehkä tärkein fiksumman sosiaalisen median analytiikan väittämä liittyy analyytikan tekemiseen ja palveluiden ostamiseen. Ala rakentuu tällä hetkellä hämmentävän vahvasti erilaisten mustien laatikoiden ympärille; käytössä on teknologioita ja algoritmeja, jotka on hienosti paketoitu tekoälyksi, mutta todellisuudessa niiden takana ovat samat kontekstiin, kieleen ja validiteettiin riippuvat ongelmat kuin yllä mainituissa esimerkeissä. Monet organisaatiot mittaavat esimerkiksi Facebookista suoraan saatavaa engagement-lukua ymmärtämättä täysin, mistä siinä oikeastaan on kysymys. Analytiikkayrityksen kauppaama keskustelun sentimenttiä kuvaava hieno piirakkadiagrammi ostetaan tyytyväisenä kyseenalaistamatta analyysissa käytettyä algoritmia.

Tämä ei tarkoita, että kaikki tehty automaattinen analytiikka olisi automaattisesti virheellistä. Mutta se tarkoittaa sitä, että analytiikan tekijöiltä vaaditaan lisää avoimuutta käytettyjen menetelmien sekä niiden heikkouksien suhteen sekä sitä, että analytiikan ostajat osaavat kysyä tarkentavia kysymyksiä mustan laatikon sisuksista. Kysymys on lopulta kielenkäytöstä: samalla tavalla kuin lääkärin on osattava selventää diagnoosi potilaalle, on datatieteilijän ja analytiikkayrittäjän osattava selittää analyysin kulku kansankielellä asiakkaalleen. Lääkärivertaus on myös sikäli osuva, että sosiaalisen median keskusteludiagnostiikka on sekään harvoin eksaktia tiedettä, pikemminkin konventioita ja estimaatteja. Pelissä on aina mukana epävarmuuselementti, jonka kanssa on vain elettävä.

Tiivistettynä kolmeen ohjenuoraan: mitä on #smartersome?

  1. Älä aliarvioi ihmistulkintaa. Sille on varattava aikaa, jos aineistosta haluaa liiketoimintahyötyjä.
  2. Vietä päivä etnografina. Selvitä oman toimialasi kannalta oleellisimmat areenat ja tavat mitata keskustelua.
  3. Älä osta mustia laatikoita. Kysy ja selvennä, mitä menetelmät tekevät. Kysy niin kauan, kunnes ymmärrät.

 

**
Lähteet:

[1] Desrosières, A. (2001). How Real Are Statistics? Four Posssible Attitudes. Social Research, 68(2), 339–355.
Beer, D. (2017). Envisioning the power of data analytics. Information, Communication & Society, 21(3), 1–15.
Couldry, N. (2014). The Myth of Big Data. In Schäfer, M. T., & Van Es, K. (Eds.). The datafied society : studying culture through data. Amsterdam: Amsterdam University Press. Retrieved from http://oapen.org/search?identifier=624771
[2] Yu, B., Kaufmann, S., & Diermeier, D. (2008). Classifying Party Affiliation from Political Speech. Journal of Information Technology & Politics, 5(1), 33–48. 

Politiikkaa ja demokratiaa käyttöliittymätutkimuksen näkökulmasta

Politiikka ja demokratia ovat hankalia termejä: ne voivat viitata niin valtiomuotoon, päätöksentekojärjestelmään, yhteisesti sovittuihin sääntöihin, organisaation toimintaan tai vaikka mihin muuhun. Viimeistään nyt on ilmeistä kaikille, että teknologiat vaikuttavat siihen, kuinka demokratia toimii ja politiikka muotoutuu. Ajankohtaisista esimerkeistä mainittakoon presidentti Trumpin sosiaalisen median aktiivisuus ja markkinointi tai kansalaisaloitteiden keräämiseen tarkoitettu verkkoalusta.

Tutkimuskirjallisuudessa teknologian ja demokratian sekä politiikan yhteys on toki ollut esillä jo pitkään. Esimerkiksi Dahlberg (2001) sekä Becker (2001) molemmat kuvittelivat, että teknologia voi parantaa demokraattista osallistumista ja mahdollistaa avoimemman sekä keskustelevamman kansalaisosallistumisen. Toisaalta, esimerkiksi Hindman (2009) on korostanut uuden teknologian mahdollisesti haittaavan demokraattisen yhteiskunnan kehittymistä esimerkiksi hakukoneiden ottaessa vallan informaation välityksestä. Tätä kirjallisuutta on runsaasti ja kolme lähdettä ei tee kunniaa kaikille ajatuksille, joita on esitetty. Minua kiinnosti kuitenkin tarkemmin tietyn tieteenalan – käyttöliittymätutkimuksen – näkökulma tähän tematiikkaan. Käyttöliittymätutkijoilla on keskeinen rooli teknologian ja ihmisten välisen vuorovaikutuksen tutkimisessa, jolloin teknologian ja yhteiskunnan välinen vuorovaikutus olisi varmaan heille kiinnostava aihepiiri.

Yhteensä erilaisilla politiikka- ja demokratia-avainsanoilla artikkeleita löytyi noin 500 kappaletta ACM Digital Librarystä. Tämä voi tuntua paljolta, mutta 1980-luvun alusta syntyneelle yhteisölle artikkelit ovat kuin tippa meressä ja muodostavat noin prosentin käyttöliittymätutkimuksen kokonaisjulkaisuista. Esimerkiksi sosiaalista mediaa on tutkittu noin 1200 artikkelin voimin ja tekstin syöttämistä päälle 300 artikkelin voimin. Systemaattisesti luokittelemalla tunnistin politiikka- ja demokratia-kirjallisuudesta 14 erilaista lähestymistapaa politiikkaan.

Selkeästi isoin ryhmä oli akateemisen yhteisön ylläpitämiseen keskittyneet artikkelit, esimerkiksi työpatjakuvaukset, paneelit ja muut keskustelutilaisuudet. Myös yllättävän monissa esipuheissa mainitaan politiikka sanana, mikä ilmaisee yhteisön mielenkiintoa poliittisia aiheita kohtaan. Ei ole kuitenkaan täysin ilmeistä, johtaako tämä yleinen mielenkiinto akateemiseen tutkimukseen.

Samoin politiikka ja demokratia sallivat käsittelyn monista näkökulmista. Toisaalta, politiikalla voitiin viitata organisaatioihin ja niissä tapahtuvaan sisäiseen politikointiin tai kansalaisjärjestöihin poliittisina toimijoina. Samaan aikaan julkisten palveluiden tuottaminen ja palautteen antaminen tai julkisten palveluiden saavutettavuus ovat myös kysymyksiä demokratiasta ja politiikasta.  Politiikkaan liittyy olennaisesti myös kommentaarit mitä erilaisimmista policyistä käyttöliittymätutkimuksen alalla.

Edelliset esimerkit jo osoittavat, että aihepiirit ovat hyvin erilaisia ja niillä ei välttämättä ole kovinkaan paljon tekemistä toistensa kanssa. Myös teknologian saatavuuden paraneminen (demokratisoituminen) sekä keskustelu arvoista, yhteiskunnasta ja teknologiasta liittyvät artikkelihaussa demokratiaan ja politiikkaan.

Sosiaalinen media on tietysti osana analyysiä, sen voi nähdä jopa kolmena erilaisena lähestymistapana. Tutkijat ovat keskittyneet poliittiseen viestintään eli tutkineet miten sosiaalinen media toimii esimerkiksi vaalien tai muiden isojen poliittisten tapahtumien alla. Toisaalta, menetelmällisesti painottuneet tutkijat liittyvät politiikkaan ja demokratiaan varsin vähäisesti: poliittinen keskustelu muodostaa heille hyvän aineiston, johon soveltaa uusimpia (koneoppimis)menetelmiään ja miettiä niiden toimivuutta. Lisäksi uutisten valikoivasta lukemisella on selvästi oma yhteisönsä.

Kaiken tämän keskellä on vielä kaksi kirjallisuusryhmää, jotka yhteiskunnan vaikuttamisen kannalta ovat mielenkiintoisia. Jotkut tutkijat ovat miettineet, miten teknologia voisi tukea naapurustoja ja niihin osallistumista. Toisaalta, osa tutkijoista on keskittyneet pohtimaan osallistumisen teknologista tukemista ja käyttöliittymätutkimuksen mahdollisuuksia siinä.

Mitä tästä kaikesta siis voi sanoa? Päänsäryn lisäksi kirjallisuuskatsaus näyttää, että demokratian ja politiikan sateenvarjo on käyttöliittymätutkimuksessa varsin laaja. Tämä ei ole välttämättä yllätys, mutta käsitteiden – kuten ”civic engagement” käyttö eri konteksteissa voi sotkea akateemista yhteisöä ja haitata omalle tutkimukselle keskeisten artikkelin löytämistä.

Olen nyt käymässä läpi tarkemmin kirjallisuutta osallistumisen tukemisesta. Mitä osallistumisen tutkimuksen yhteisö voisi oppia käyttöliittymätutkijoilta ja toisaalta mitä käyttöliittymätutkimusyhteisö voisi hyötyä yhteiskuntatieteestä? Puhun näistä ajatuksista tarkemmin 11.4. maksuttomassa HY+aamu-tilaisuudessa.

 

Miten GDPR vaikuttaa tutkijan työhön?

Helsingin yliopistolla järjestettiin koulutus tutkijoille EU:n uudesta tietosuoja-asetuksesta GDPR:sta (General Data Protection Regulation). GDPR koskee henkilötietorekisterien keräämistä ja käsittelyä ja sen tarkoituksena on harmonisoida EU-maiden tietosuojalainsäädäntöä. Täysmittaisesti GDPR:n soveltaminen alkaa 25.5.2018. Tarkan kuvauksen GDPR:sta voi lukea esimerkiksi täältä tai täältä. Helsingin yliopiston työntekijöille koulutusmateriaali löytyy täältä.

Tutkimuksen etiikan periaatteet auttavat tutkijaa pitkälle myös uuden lain puitteissa (kts. esim. Sallan postaus verkkotutkimuksen etiikasta), mutta joitakin muutoksia nykykäytäntöihin tulee. Tässä havaintoja, jotka mielestäni vaikuttavat eniten tutkijan työhön varsinkin yhteiskuntatieteissä.

GDPR koskee henkilötietoja koskevia rekistereitä tai aineistoja, ja usein esimerkiksi kysely- tai haastatteluaineistot sisältävät henkilötietoja. Henkilötietona voidaan pitää mitä vaan tietoa, joka voidaan yhdistää johonkin luonnolliseen henkilöön. Itsestään selviä ovat nimet, sosiaaliturvatunnukset, osoitteet ja muut vastaavat tiedot, mutta myös esimerkiksi IP-osoitteet katsotaan henkilötiedoksi. Pseudonymisointi (salanimien tai numerotunnisteiden käyttö) on yleinen tapa ohittaa henkilötietojen käsittelyyn liittyviä haasteita, mutta laissa pseudonymisoitu tieto nähdään lähtökohtaisesti samoin kuin henkilötiedot paljastava, ei-pseudonymisoitu tieto. Tiedon anonymisointi onkin suositeltavaa aina kun mahdollista (henkilötiedot tai pseudonyymien lisätiedot/koodiavaimet pysyvästi poistettu).

Oma lukunsa ovat arkaluonteiset tiedot, joita ovat ainakin:

  • Rotu, etninen alkuperä
  • Poliittiset mielipiteet, äänestyskäyttäytyminen
  • Uskonnolliset tai filosofiset vakaumukset
  • Ammattiyhdistysliikkeen jäsenyys
  • Terveystiedot
  • Seksuaalinen suuntautuminen
  • Rikosrekisteri

Arkaluonteisen henkilötiedon tapauksessa tutkijan tulee laatia tietosuojaa koskeva vaikutustenarviointi (Data Processing Impact Assessment, PDIA). Lisätietoja löytyy täältä, ja varmasti kaikkien yliopistojen omilta lakimiehiltä tai tietosuojavastaavilta.

Henkilötietojen keräämisen yhteydessä pitää huomioida minimisaation periaate – kerää ainoastaan ne henkilötiedot, jotka ovat tutkimuksen kannalta välttämättömiä, ja jätä muut keräämättä. Tietoja saa käyttää ainoastaan siinä tarkoituksessa, johon lupa on annettu. Lupaa pyydettäessä tutkijan kannattaa ottaa huomioon aineistojen mahdollisen jatkokäyttö, ja pyytää myös siihen suostumus. Tieteellisen tutkimuksen tapauksessa myös laissa säädetyn tehtävän suorittaminen tai yleinen etu voivat toimia laillisina henkilötietojen keräämisen ja käsittelyn perusteina.

Nickname

Suurin muutos aiempaan henkilötietolakiin on rekisterinpitäjän osoitusvelvollisuus, eli velvollisuus kirjallisesti osoittaa GDPR:n mukaisen toiminnan ja rekisteröityjen oikeuksien täyttämisen. Riittävät toimenpiteet määritellään riskianalyysin mukaan, eikä laki suoraan määrittele, mitä nämä toimenpiteet ovat. Rekisteröityjen oikeudet ovat:

  • Saada läpinäkyvää tietoa rekisteristä
  • Päästä omiin tietoihin
  • Oikaista tietoja
  • Tulla unohdetuksi
  • Rajoittaa käsittelyä
  • Siirto-oikeus
  • Vastustamisoikeus

Tieteellinen tutkimus voi useimmissa tapauksia toimia poikkeuksena, jos tutkimuksesta on laadittu tutkimussuunnitelma, hankkeella on vastuullinen tutkija tai tutkimusryhmä ja henkilötietoja käytetään ainoastaan tutkimustarkoituksiin.

GDPR:ssä erotetaan rekisterinpitäjä ja henkilötietojen käsittelijä, joka toimii rekisterinpitäjän ohjeiden mukaisesti. Tieteellisen tutkimuksen tapauksessa rekisterinpitäjänä pidetään lähtökohtaisesti yliopistoa ja tutkijaa käsittelijänä. Tutkijoiden tulee siis noudattaa yliopiston tietosuoja- ja tietoturvasääntöjä, jotka kannattaa käydä läpi olemassa olevien henkilötietoja sisältävien aineistojen ja uusien aineistojen keräyksen osalta. Poikkeuksena on tutkimus, joka toteutetaan omalla ajalla ja rahalla, tai jos tutkija esimerkiksi omistaa aineiston itse. Tällöin väärinkäytöksistä seuraavat sanktiot voivat langeta rekisterinpitäjälle, eli yksittäiselle tutkijalle.

Viimeisenä huomiona nostan sopimuksen henkilötietojen käsittelystä (Data Processing Agreement, DPA), joka vaaditaan, kun tietojen käsittely ulkoistetaan. Koska esimerkiksi tietojen säilytys luetaan tietojen käsittelyksi, tutkijan tulee mm. ottaa huomioon, mitä pilvipalveluja työssään käyttää. Henkilötietoja sisältävät aineistot kannattaa siis aina säilyttää ensisijaisesti yliopiston palvelimella tai muuten yliopiston sisällä, eikä esimerkiksi Google Drivellä tai Dropboxissa.

Tässä siis huomioita, joita itse koulutuksesta tein. Kommentoi jos huomaat puuttuvia keskeisiä pointteja GDPR:stä tutkijan työn näkökulmasta!

Cambridge Analytica -vuoto sai suuren yleisön kiinnostumaan ongelmasta, josta kriittinen teknologiatutkimus on puhunut jo vuosia

Screen Shot 2018-03-21 at 12.07.46
Screenshot from Twitter #deletefacebook

Cambridge Analytican Facebook-datan väärinkäyttö Yhdysvaltain 2016 presidentinvaaleissa on nostattanut ison kritiikkivyöryn teknologiajättejä kohtaan. Miksi kohu nousee vasta nyt, vaikka kriitikot ja tutkijat ovat kirjoittaneet aiheesta jo vuosia?

Cambridge Analytica -kohu nousi uusiin ulottuvuuksiin lauantaina, analytiikkayhtiön entisen työntekijän Christopher Wylien tehtyä paljastuksen yhtiön datankäytöstä The Guardianille ja The New York Timesille. Uutismedia on raportoinut paljastuksesta laajalti, ja jatkojutuissa on muun muassa annettu neuvoja omien Facebook-asetuksien säätämiseen. Twitterissä leviää hashtag #deletefacebook, jossa ihmiset kehottavat tuhoamaan Facebook-tilinsä kokonaan. Facebookin pörssikurssi laski, mikä on viesti sijoittajien kokemista riskeistä ja sitä kautta melko vahva viesti kohun laajuudesta. Kenties tärkeimpänä seurauksena näyttäytyy kuitenkin se, että poliitikot niin Euroopassa kuin Yhdysvalloissakin ovat heränneet vaatimaan Facebookia tilivelvolliseksi. Tähän ei riittänyt vielä NSA-kohu eikä aiemmat tiedot venäläisten kohdentamista vaalimainoksista. Miksi nyt kriittinen reaktio kasvoi näin suureksi?

Ensinnäkin on hyvä pitää mielessä, että breach-termin käytöstä huolimatta kyseessä ei ole tietovuoto siinä mielessä, että data on alun perin kerätty Facebookin ohjelmointirajapinnan käyttösääntöjen puitteissa. Dataa on vain myöhemmin päädytty luovuttamaan kolmansille osapuolille sääntöjen vastaisesti. Myöskin alkuperäinen väite siitä, että applikaatio kerää dataa vain tutkimustarkoituksiin on tässä vaiheessa rikottu.

Vastaava data on siis vuoteen 2014 asti ollut kenen tahansa Facebookin ohjelmointirajapintaa käyttävän ladattavissa, jos hän on saanut Facebookilta hyväksynnän applikaatiolleen, ja saanut houkuteltua ihmiset sitä käyttämään. Vuonna 2014 Facebook rajoitti API:n kautta saatavan tiedon määrää suuresti, mutta vanhempia datasettejä todennäköisesti vielä pyörii kovalevyillä.

Tietyllä tavalla keskustelu siitä onko kyseessä teknisessä mielessä tietovuoto, ja missä vaiheessa sääntöjä on rikottu, on kuitenkin sivujuonne. Käyttäjien datan kerääminen perustui käyttäjien antamaan suostumukseen, jonka pitäisi olla harkittu ja perustua tietoon (englanniksi informed consent). Tähän sisältyy useita ongelmia, esimerkiksi mahdollisuus edes teoriassa olla tietoinen tulevista datan käytöistä sekä se, että data käytännössä koskee myös muita kuin suostumuksen antajaa. Kuinka monella Cambridge Analytican sovelluksen asentaneella kävi mielessä pohtia sitä, mihin omien tai Facebook-kavereiden tietojen tullaan käyttämään? Kuinka moni olisi edes voinut ennakoida teknologian kehitystä ja siihen liittyen tietojen tulevia käyttöjä? Kuinka usein jokainen meistä tulee antaneeksi suostumuksen datan keräämisen ja käyttöön pohtimatta näitä asioita?

Osa ongelmaa piilee pohjimmiltaan myös siinä, että yksityisyys ajatellaan asiaksi josta kukin käyttäjä päättää itse. Yksityisyys on kuitenkin monessa mielessä myös yhteinen asia. Tässä tapauksessa konkretisoituu hyvin myös se, mitä tämä voi tarkoittaa käytännössä.

Isossa mittakaavassa Facebookin asiakkailleen, siis mainostajille, antama lupaus on se, että maksavien asiakkaiden viestejä kohdennetaan tehokkaasti ja tämä vaikuttaa ihmisten käyttäytymiseen. Tätä lupausta yritys on toteuttanut mm. Yhdysvaltain vaalien alla, myös ennen viimeisimpiä presidentinvaaleja. On kenties väistämätöntä, että tällaista kohdentamiseen perustuvaa järjestelmää käytetään myös tavoilla joita pidämme väärinkäyttönä, ja nyt käynnissä oleva tapaus osoittaa konkreettisesti mitä tämä voi tarkoittaa. Se on myös osoittanut, ettei Facebookia ole erityisemmin kiinnostanut puuttua asiaan.

Facebookin ja muiden ns. GAFA-yritysten toimia kritisoiva techlash-ilmiö ei ole uusi: erityisesti teknologiajättien entiset työntekijät ovat kritisoineet avoimesti yritysten toimintatapaa ja eettisyyttä. Muun muassa ex-googlelainen Tristan Harris on varoittanut siitä, miten teknologiajätit hallitsevat mieliämme ja perustanut Center for Humane Technology -aloitteen ratkaisemaan teknologian vinoutunutta kehitystä. Like-nappulan kehittänyt Justin Rosenstein on myöhemmin kritisoinut keksintöään addiktiivisuudesta.

Myös tutkijat ovat kirjoittaneet kriittisiä havaintoja teknologiajättien toiminnasta. Esimerkiksi hollantilaiset José Van Dijck ja David Nieborg analysoivat artikkelissaan jo vuonna 2009, miten teknologiayritysten konehuoneessa pyörivä bisneslogiikka taitavasti piilotetaan sosiaalisia suhteita ja kulttuuria korostavan retoriikan taakse. Samasta teemasta kirjoittaa myös esimerkiksi Sarah Myers West, joka kuvaa kaupallisen valvonnan tuottamaa yhteiskuntaa datakapitalismiksi.

Harvardin emeritaprofessori Shoshana Zuboff on myös kirjoittanut kriittiseen ja melko dystooppiseenkin sävyyn valvontaan perustuvasta kapitalismista ja demokraattisen informaatioyhteiskunnan tulevaisuudesta käyttäen Googlea esimerkkitapauksena (ks. myös Zuboffin akateeminen, kieltämättä hieman työläslukuinen artikkeli aiheesta). Professori Joseph Turow on kirjoittanut ja puhunut jo vuosia mediayhtiöiden ja kohdentamisen logiikasta. Hän on tehnyt myös lukuisia empiirisiä analyyseja siitä, kuinka käyttäjät eivät ymmärrä sitä, millä laajuudella he tietojaan teknologiayrityksille luovuttavat, ja miten niitä voidaan jatkokäyttää.

Yleisemmän yhteiskuntateoreettisen näkökulman lisäksi tutkijat ovat tarttuneet myös yksityisyyden ja teknologian rajapintoihin. Muun muassa apulaisprofessori Bernhard Rieder on tehnyt kriittisiä havaintoja Facebookin luovuttamista datoista jo vuonna 2013. Blogipostauksessaan Rieder osoittaa, että viattomalta näyttävä “access to posts in your newsfeed” tarkoittaa itse asiassa pääsyä suureen määrään kyseisen käyttäjän verkoston tuottamaa sisältöä ja informaatiota. Myös Jen King kollegoineen kiinnitti asiaan huomiota jo vuonna 2011 julkaistussa applikaatioita itsekin hyödyntäneessä tutkimuksessa. Yksityisyyden yksilön yli menevästä sosiaalisesta ja verkottuneesta luonteesta on ylipäänsä kirjoittanut moni tutkija vuosien varrella. Hyvänä johdantona toimii esim. tämä teknologian tutkija danah boydin teksti vuodelta 2011.

Jostakin syystä tämä kriittinen puhe ei kuitenkaan ole kovin hyvin mennyt läpi – kenties emme ole olleet kovin herkkiä kuuntelemaan vastarannan kiiskiä startup-buumin ja teknologiahypen keskellä? Kenties vasta maailman merkittävimmät vaalit ja poliittinen vaikuttaminen ovat tarpeeksi vakava käyttökohde, johon jokaisella on tarttumapinta?

Joka tapauksessa nyt vallalla olevan tekoälypöhinän kohdalla voisimme kenties kuunnella kritiikkoja ja akateemikkoja vähän aikaisemmin. Esimerkiksi professori Luciano Floridin teksti Should we be afraid of AI on hyvä paikka aloittaa.

Teksti: Salla-Maaria Laaksonen & Tuukka Lehtiniemi

Taitavasti eettistä verkkotutkimusta

https://www.flickr.com/photos/janetmck/15422638442/
(cc) Janet McKnight, Flickr

Vaatii taitoa ja rohkeutta rakentaa sosiaalista mediaa hyödyntävät tutkimusasetelmat niin, että eettisen tutkimuksen ehdot täyttyvät. // Teksti on rinnakkaisjulkaisu TENK:n Vastuullinen tiede -sivustolta (CC BY 4.0).

Sosiaalinen media valtavine viestimäärineen näyttäytyy monelle tutkijalle houkuttelevana aineistopankkina, halusipa sitten tutkia ihmisten asenteita ja käyttäytymistä tai yhteiskunnallisia muutoksia. Aineistojen vapaa saatavuus ei kuitenkaan poista eettisen pohdinnan tärkeyttä.

Verkkosisältöjen tutkimuskäyttöä koskevat eettiset käytännöt ja ohjeistukset ovat kirjavia Suomessa ja kansainvälisesti. Suomessa ihmistieteiden eettisen ennakkoarvioinnin ohjeistus ei ota erikseen kantaa verkkotutkimukseen. Tutkimukseen vaikuttavat lait puolestaan ovat auttamattomasti digitaalista aikaa jäljessä. Käytännössä tutkija joutuu verkkoaineistojen kanssa toimimaan hiukan harmaalla alueella ja luottamaan omaan harkintaansa ratkaisuja tehdessään.

Tutkimuskohteena ihminen vai data?

Tutkimuseettisen neuvottelukunnan laatima ohjeistus ihmistieteiden eettisestä ennakkoarvioinnista lähtee siitä, että ihmistieteellistä tutkimusta ohjaa kolme eettistä periaatetta: tutkittavan itsemääräämisoikeuden kunnioittaminen, vahingoittamisen välttäminen sekä yksityisyyden ja tietosuojan säilyttäminen. Periaatteet viittaavat siis erityisesti tutkimuksiin, jossa tutkimuksen kohteena on ihmistoimija. Verkkoaineistojen kohdalla tyypillistä on kuitenkin ihmisen, datan ja tekstin rajan hämärtyminen.

Jos tutkimuksen fokus on sisällöissä, voidaan sosiaalisen median aineistot rinnastaa julkistetuiksi tiedoiksi tai rekisteriaineistoiksi, jolloin tutkittavien erillistä suostumusta ei vaadita. Sosiaalisen median aineistoissa tekstit kuitenkin tyypillisesti ovat yksityishenkilöiden tuottamia ja käyttäjän nimi usein näkyvillä.

Usein verkossa tutkimusta tehdään kontekstissa, jossa suostumuksen kerääminen kaikilta tutkittavilta on vaikeaa ja käytännössä jopa mahdotonta. Monilla verkkoalustoilla keskustelua käydään anonyymisti eikä esimerkiksi vanhasta aineistosta ole useinkaan mahdollista etsiä nimetynkään tekijän yhteystietoja.

Verkkotutkimuksessa tutkimuskohde on siis väistämättä häilyväinen, eikä ihmisyys olekaan kovin järkevä tapa tarkastella verkkotutkimusta. Keskeisempää on pohtia laajemmin tutkimuksen mahdollisesti aiheuttamaa haittaa, tutkittavien haavoittuvutta ja yksityisyyttä.

Kimurantti julkisuus ja yksityisyys

Verkossa julkisen ja yksityisen ero hämärtyy helposti. Sosiaalisen median kontekstissa teknisesti julkisella aineistolla tarkoitetaan kaikkien saataville julkaistuja päivityksiä esimerkiksi avoimilla keskustelualustoilla tai ryhmissä. Selkeästi yksityistä aineistoa ovat esimerkiksi tutkijalle luottamuksellisesti lähetetyt viestit sosiaalisen median kanavissa tai viestit suljetuista ryhmistä, joihin tutkijalla on pääsy.

Silti teknisesti julkistenkin viestien kohdalla on vaikea arvioida kirjoittajien käsitystä aineiston julkisuudesta. Yksityisyyden ja julkisuuden käsitteet ovat vahvasti kulttuurisidonnaisia. Lisäksi palveluiden yksityisyysasetukset muuttuvat niin usein, että tavalliselle käyttäjälle ei välttämättä ole aina selvää, mitkä viesteistä ovat julkisia ja mitkä eivät. Näin ollen tiedon julkinen saatavuus ei yksinään riitä eettiseksi periaatteeksi, vaan tutkijan on pohdittava myös tiedon tuotannon kontekstia sekä tiedon arkaluontoisuutta.

Teknisestä ja lainopillisesta näkökulmasta neuvottelukumppanina verkkoaineistojen tutkimuksessa on myös verkkoalusta, jossa sisällöt on julkaistu. Tutkijan onkin syytä tutustua verkkopalveluiden käyttöehtoihin. Ne asettavat usein reunaehtoja materiaalin tutkimuskäytölle sekä rajoittavat koneellisesti ladattavan aineiston saatavuutta joko suojellakseen käyttäjien yksityisyyttä tai omaa liiketoimintaansa. Esimerkiksi Facebookista pystyy koneellisesti lataamaan ainoastaan julkisten ryhmien ja sivujen sisältöjä, mutta yksityishenkilöiden profiileista julkisetkaan päivitykset eivät ole saatavilla. Selaimen kautta ne ovat kuitenkin nähtävissä ja helposti osa esimerkiksi verkkoetnografin aineistoa.

Teksti ja konteksti

Tutkijat ovat käsitelleet luottamuksellisia aineistoja ennen digiaikaakin, eivätkä yksityisyyden suojaamisen ongelmat ole verkkoaineistoissa perustavalla tavalla erilaisia esimerkiksi haastatteluaineistoihin verrattuna. Myös sosiaalisen median aineistoja on analyysivaiheessa mahdollista käsitellä niin, että yksityishenkilöiden anonymiteetti ja tietosuoja säilyvät. Esimerkiksi poliittisen viestinnän tutkimusprojekteissamme anonymisoimme aineistosta tavalliset käyttäjät, mutta jätimme poliitikkojen nimet näkyville.

Anonymisointi kuitenkin ratkaisee vain analysointivaiheen haasteita. Sosiaalisen median aineistojen erityispiirre on se, että vaikka tutkimuksen kohteena olisikin pelkkä teksti, on se helppo yhdistää takaisin alkuperäiseen kirjoittajaan. Yksittäisen twiitin lähettäjä löytyy helposti syöttämällä teksti hakukoneeseen. Lisäksi erilaisia aineistoja yhdistämällä anonymisoitujenkin henkilöiden tunnistaminen voi olla mahdollista.

Siksi eettiset periaatteet on pidettävä mielessä myös silloin, kun tutkimusjulkaisuun valitaan lainauksia aineistosta tai jos aineistoa halutaan avata tutkimuskäyttöön. Arkaluontoisten teemojen kohdalla tutkija joutuu punnitsemaan, näyttääkö hän lukijalle aineistonäytteitä parantaakseen argumentaatiotaan vai pyrkiikö hän turvaamaan tutkittavien anonymiteetin.

Tietoa, taitoa ja rohkeutta

Lakitekstiviidakossa ja eettisiä ohjeita tiukasti lukien on helppo tulkita, että sosiaalisen median aineistojen käyttäminen ei ole laillista tai eettisesti suotavaa. Varsinkin yhteiskuntatieteellisen tutkimuksen näkökulmasta tutkijoilta kaivataan kuitenkin paitsi ammattitaitoa, myös rohkeutta ja taitoa rakentaa sosiaalista mediaa hyödyntävät tutkimusasetelmat siten, että eettisen tutkimuksen ehdot täyttyvät. Sosiaalinen media heijastelee lukuisia yhteiskunnallisesti merkittäviä teemoja. On sääli, jos esimerkiksi yhteiskunnallista vallankäyttöä koskevista tutkimuksista pitäisi ohjeiden puuttuessa jättää digitaalinen osuus tekemättä.

Kuten kaikessa tutkimuksessa, verkkotutkimuksessa on asetelmia, jotka eettisistä syistä tulisi jättää toteuttamatta. Tutkimuksen tutkittaville aiheuttamat haitat ja seuraukset ovat kuitenkin kontekstin määrittämiä tekijöitä, minkä vuoksi yleispätevien ohjeiden antaminen on mahdotonta. Eettisen pohdinnan avuksi löytyy kuitenkin erilaisia apuvälineitä esimerkiksi tämän kirjoituksen viitteistä – erityisesti verkkotutkimuksen kansainvälisen yhdistyksen Association of Internet Researchers AoIR:n julkaisema eettinen ohjeistus on erinomainen apu tutkijalle.

Salla-Maaria Laaksonen on tutkija Helsingin yliopistossa.

Lisätietoja:

  • AoIR (2012). Ethical decision-making and Internet research: Version 2.0. Recommendations from the AoIR Ethics Working Committee. Final Draft; Association of Internet Researchers. (pdf)
  • Östman, S., & Turtiainen, R. (2016). From research ethics to researching ethics in an online specific context. Media and Communication, 4(4), 66–74.
  • Tikka, Minttu (2014) Tutkija nuorten mediamaailmassa: tutkimuseettisiä kysymyksiä. Nuorisotutkimus vol. 32(3).
  • Turtiainen R, Östman S. (2013). Verkkotutkimuksen eettiset haasteet: Armi ja anoreksia. Kirjassa: Laaksonen S-M, Matikainen J, Tikka M. (toim.) Otteita verkosta. Verkon ja sosiaalisen median tutkimusmenetelmät. Tampere: Vastapaino, s. 49–67.