Miten some-aineistoja sopii analysoida?

15422638442_cb6aeb137e_z
(cc) Janet McKnight, Flickr

Blogikirjoitus on rinnakkaispostaus Etiikka.fi-sivustolta ja sosiaalisen median tutkimusetiikkaa käsittelevää kirjoitussarjaa. Digitutkimuksen etiikan pohdinta jatkuu Rajapintapäivillä 2.11.!
– –

Yhä useampi yhteiskuntatieteellinen tutkija työskentelee sosiaalisesta mediasta kerättyjen aineistojen parissa – olivat ne sitten perinteisiä, pienempiä otoksia tai isompia big data -aineistoja. Verkkoaineistojen kanssa työskentely on kuitenkin tutkimusta siinä missä muukin tutkimus, ja eettiset ohjenuorat ovat työssä kullanarvoinen apu.

Sosiaalisen median aineistojen analyysin erityispiirre on se, että aineistoihin lähes väistämättä liittyy henkilötietoja. Monissa sosiaalisen median palveluissa profiili kytkeytyy suoraan oikeaan nimeen, mutta joidenkin tulkintojen mukaan esimerkiksi pelkkä Twitterin käyttäjänimi riittää yksilöimään käyttäjän henkilön. Tutkijan täytyy olla tietoinen sekä henkilötietojen käsittelyyn liittyvästä lainsäädännöstä, että ihmistutkimuksen eettisistä periaatteista. Ohjeistuksien peruspilareihin kuuluu tutkittavan koskemattomuuden säilyttäminen ja vahingoittamisen välttäminen sekä yksityisyydestä ja tietosuojasta huolehtiminen (ks. TENK).

Mikä on aineiston konteksti?

Verkkoaineistojen avulla voidaan käsitellä hyvinkin henkilökohtaisia ja arkaluontoisia teemoja, esimerkiksi uskontoon, poliittisiin mielipiteisiin tai seksuaaliseen suuntautumiseen liittyviä asioita. Tutkittavan fyysinen koskemattomuus tuskin on uhattuna, mutta leikepöydällä voi olla materiaalia, jonka analysointi tai julkistaminen voi tuottaa tutkittavalle vahinkoa esimerkiksi henkilömaineen tahriintumisen tai jopa post-traumaattisen stressin muodossa.

Association of Internet Researchersin eettiset ohjeet painottavat juuri vahingon aiheuttamiseen liittyvää harkintaa: mitä haavoittuvaisemmasta tutkittavasta tai teemasta on kysymys, sitä tarkemmin tutkijan velvollisuus on suojata tutkittaviaan:

“The greater the vulnerability of the community / author / participant, the greater the obligation of the researcher to protect the community / author / participant.” (Markham & Buchanan 2012, AoIR ethical guidelines)

Sosiaalisen median aineistojen käsittelyssä olennaisinta on kehittää tarkka ymmärrys aineiston kontekstista. On mahdotonta antaa yleispätevää vastausta esimerkiksi kysymykseen ”Aiheutuuko twiittien keräämisestä haittaa niiden lähettäjälle?”. Vastaus riippuu aina viestin lähettäjästä, aihepiiristä ja yhteiskunnallisesta kontekstista. Lopputulos riippuu myös analyysissa tehtävistä toimenpiteistä ja valinnoista.

Anonyymia analyysia

Perinteinen keino turvata tutkittavien henkilöiden oikeuksia on aineiston anonymisointi. Monessa yhteiskuntatieteellisessä tutkimuksessa on kuitenkin oleellista tietää, kuka viestin on kirjoittanut. Esimerkiksi yhteiskunnallisen vallankäytön tutkiminen ilman lähettäjätietoja on mahdotonta.

Silti on hyvä miettiä myös tutkimusprosessin aikana tarkasti, onko tutkijoiden tarpeen tietää tutkittavien identiteettejä. Omassa Digivaalit 2015 -tutkimuksessamme kerätyistä isoista aineistoista tunnistettiin nimellä ainoastaan vaaliehdokkaat. ansalaisten käyttäjänimet näkyivät vain numerosarjoina: tutkimusongelman valossa meillä ei ollut mitään tarvetta tietää, minkä niminen henkilö on kirjoittanut poliitikoille kommentteja.

Anonymisointi ei kuitenkaan ole oikotie onneen. Eri aineistoja yhdistämällä voi olla mahdollista luoda pelottavan tarkkoja henkilöprofiileja arkaluontoisistakin aiheista: klassisessa amerikkalaisessa esimerkissä terveystietoja sisältävä, anonymisoitu aineisto pystyttiin yhdistämään muutaman muuttujan avulla suoraan äänestäjärekisteriin. Tuoreessa tapauksessa pystyttiin profiiliosoitteiden avulla tunnistamaan lukuisia käyttäjiä anonyymista selainhistoriadatasta.

Lisäksi sosiaalisen median aineistojen kohdalla anonymisointi on osin kosmeettista. Julkisesta verkosta kerätty aineisto on kenen tahansa löydettävissä pelkästään tekstisisältöjen perusteella: esimerkiksi aineistolainaukseen poimitun twiitin lähettäjineen löytää Twitteristä hakukoneella. Siksi varovaisuusperiaate täytyy pitää mielessä aina tutkimustulosten raportointiin ja julkaisemiseen asti. Tutkija joutuu käytännössä punnitsemaan, näyttääkö hän lukijalle aineistonäytteitä parantaakseen argumentaatiotaan, vai pyrkiikö hän turvaamaan tutkittavien anonymiteetin.

Henkilötieto on henkilötietoa, mutta julkinen ei välttämättä julkista

Kenties paras muistisääntö sosiaalisen median aineistojen analyysin parissa työskentelevälle tutkijalle onkin ajatella ja käsitellä niitä koko ajan henkilötietoina. Yhdeksi apumitaksi kannattaa ottaa lakipykälät. Suomen laki henkilötietojen käsittelystä on – kansalaisten onneksi – sen verran tiukka, että sen pykälistä löytyy hyvää tukea myös tutkimusetiikan pohtimiseksi.

Laki pakottaa miettimään tarkemmin aineistojen tallentamista ja suojaamista. Suojaamaton pilvipalvelu on henkilötietoja sisältävälle tutkimusaineistolle yhtä väärä paikka kuin ruotsalaisten henkilötiedoille.

Laki ei kuitenkaan ota kantaa kaikkiin tutkimuksen kannalta tärkeisiin eettisiin kysymyksiin Sen näkökulmasta julkiset verkkokeskustelut ovat arkaluontoisinakin julkistettua tietoa, jonka käyttäminen aineistona on sallittua. Keväällä 2018 voimaan tuleva uusi EU:n tietosuoja-asetus näyttäisi jopa antavan entistä enemmän vapauksia henkilödatan tutkimuskäytölle.

Palaamme siis tärkeimmän opin äärelle: kontekstin ymmärtäminen ja aineiston käytöstä mahdollisesti aiheutuvien haittojen pohtiminen on tärkein osa tutkijan eettistä ammattitaitoa. Digitaalisten aineistojen käyttöön pätevät samat varotoimenpiteet kuin ei-digitaalisten aineistojen kohdalla: tutkittavien anonymisointi varsinkin lopullisessa julkaisussa, sekä tutkimuksesta tutkittaville mahdollisesti aiheutuvan harmin ja vahingon välttäminen tutkimusprosessin jokaisessa vaiheessa.

– –
Salla-Maaria Laaksonen, VTT,  on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.