Miten GDPR vaikuttaa tutkijan työhön?

Helsingin yliopistolla järjestettiin koulutus tutkijoille EU:n uudesta tietosuoja-asetuksesta GDPR:sta (General Data Protection Regulation). GDPR koskee henkilötietorekisterien keräämistä ja käsittelyä ja sen tarkoituksena on harmonisoida EU-maiden tietosuojalainsäädäntöä. Täysmittaisesti GDPR:n soveltaminen alkaa 25.5.2018. Tarkan kuvauksen GDPR:sta voi lukea esimerkiksi täältä tai täältä. Helsingin yliopiston työntekijöille koulutusmateriaali löytyy täältä.

Tutkimuksen etiikan periaatteet auttavat tutkijaa pitkälle myös uuden lain puitteissa (kts. esim. Sallan postaus verkkotutkimuksen etiikasta), mutta joitakin muutoksia nykykäytäntöihin tulee. Tässä havaintoja, jotka mielestäni vaikuttavat eniten tutkijan työhön varsinkin yhteiskuntatieteissä.

GDPR koskee henkilötietoja koskevia rekistereitä tai aineistoja, ja usein esimerkiksi kysely- tai haastatteluaineistot sisältävät henkilötietoja. Henkilötietona voidaan pitää mitä vaan tietoa, joka voidaan yhdistää johonkin luonnolliseen henkilöön. Itsestään selviä ovat nimet, sosiaaliturvatunnukset, osoitteet ja muut vastaavat tiedot, mutta myös esimerkiksi IP-osoitteet katsotaan henkilötiedoksi. Pseudonymisointi (salanimien tai numerotunnisteiden käyttö) on yleinen tapa ohittaa henkilötietojen käsittelyyn liittyviä haasteita, mutta laissa pseudonymisoitu tieto nähdään lähtökohtaisesti samoin kuin henkilötiedot paljastava, ei-pseudonymisoitu tieto. Tiedon anonymisointi onkin suositeltavaa aina kun mahdollista (henkilötiedot tai pseudonyymien lisätiedot/koodiavaimet pysyvästi poistettu).

Oma lukunsa ovat arkaluonteiset tiedot, joita ovat ainakin:

  • Rotu, etninen alkuperä
  • Poliittiset mielipiteet, äänestyskäyttäytyminen
  • Uskonnolliset tai filosofiset vakaumukset
  • Ammattiyhdistysliikkeen jäsenyys
  • Terveystiedot
  • Seksuaalinen suuntautuminen
  • Rikosrekisteri

Arkaluonteisen henkilötiedon tapauksessa tutkijan tulee laatia tietosuojaa koskeva vaikutustenarviointi (Data Processing Impact Assessment, PDIA). Lisätietoja löytyy täältä, ja varmasti kaikkien yliopistojen omilta lakimiehiltä tai tietosuojavastaavilta.

Henkilötietojen keräämisen yhteydessä pitää huomioida minimisaation periaate – kerää ainoastaan ne henkilötiedot, jotka ovat tutkimuksen kannalta välttämättömiä, ja jätä muut keräämättä. Tietoja saa käyttää ainoastaan siinä tarkoituksessa, johon lupa on annettu. Lupaa pyydettäessä tutkijan kannattaa ottaa huomioon aineistojen mahdollisen jatkokäyttö, ja pyytää myös siihen suostumus. Tieteellisen tutkimuksen tapauksessa myös laissa säädetyn tehtävän suorittaminen tai yleinen etu voivat toimia laillisina henkilötietojen keräämisen ja käsittelyn perusteina.

Nickname

Suurin muutos aiempaan henkilötietolakiin on rekisterinpitäjän osoitusvelvollisuus, eli velvollisuus kirjallisesti osoittaa GDPR:n mukaisen toiminnan ja rekisteröityjen oikeuksien täyttämisen. Riittävät toimenpiteet määritellään riskianalyysin mukaan, eikä laki suoraan määrittele, mitä nämä toimenpiteet ovat. Rekisteröityjen oikeudet ovat:

  • Saada läpinäkyvää tietoa rekisteristä
  • Päästä omiin tietoihin
  • Oikaista tietoja
  • Tulla unohdetuksi
  • Rajoittaa käsittelyä
  • Siirto-oikeus
  • Vastustamisoikeus

Tieteellinen tutkimus voi useimmissa tapauksia toimia poikkeuksena, jos tutkimuksesta on laadittu tutkimussuunnitelma, hankkeella on vastuullinen tutkija tai tutkimusryhmä ja henkilötietoja käytetään ainoastaan tutkimustarkoituksiin.

GDPR:ssä erotetaan rekisterinpitäjä ja henkilötietojen käsittelijä, joka toimii rekisterinpitäjän ohjeiden mukaisesti. Tieteellisen tutkimuksen tapauksessa rekisterinpitäjänä pidetään lähtökohtaisesti yliopistoa ja tutkijaa käsittelijänä. Tutkijoiden tulee siis noudattaa yliopiston tietosuoja- ja tietoturvasääntöjä, jotka kannattaa käydä läpi olemassa olevien henkilötietoja sisältävien aineistojen ja uusien aineistojen keräyksen osalta. Poikkeuksena on tutkimus, joka toteutetaan omalla ajalla ja rahalla, tai jos tutkija esimerkiksi omistaa aineiston itse. Tällöin väärinkäytöksistä seuraavat sanktiot voivat langeta rekisterinpitäjälle, eli yksittäiselle tutkijalle.

Viimeisenä huomiona nostan sopimuksen henkilötietojen käsittelystä (Data Processing Agreement, DPA), joka vaaditaan, kun tietojen käsittely ulkoistetaan. Koska esimerkiksi tietojen säilytys luetaan tietojen käsittelyksi, tutkijan tulee mm. ottaa huomioon, mitä pilvipalveluja työssään käyttää. Henkilötietoja sisältävät aineistot kannattaa siis aina säilyttää ensisijaisesti yliopiston palvelimella tai muuten yliopiston sisällä, eikä esimerkiksi Google Drivellä tai Dropboxissa.

Tässä siis huomioita, joita itse koulutuksesta tein. Kommentoi jos huomaat puuttuvia keskeisiä pointteja GDPR:stä tutkijan työn näkökulmasta!

Miten some-aineistoja sopii analysoida?

15422638442_cb6aeb137e_z
(cc) Janet McKnight, Flickr

Blogikirjoitus on rinnakkaispostaus Etiikka.fi-sivustolta ja sosiaalisen median tutkimusetiikkaa käsittelevää kirjoitussarjaa. Digitutkimuksen etiikan pohdinta jatkuu Rajapintapäivillä 2.11.!
– –

Yhä useampi yhteiskuntatieteellinen tutkija työskentelee sosiaalisesta mediasta kerättyjen aineistojen parissa – olivat ne sitten perinteisiä, pienempiä otoksia tai isompia big data -aineistoja. Verkkoaineistojen kanssa työskentely on kuitenkin tutkimusta siinä missä muukin tutkimus, ja eettiset ohjenuorat ovat työssä kullanarvoinen apu.

Sosiaalisen median aineistojen analyysin erityispiirre on se, että aineistoihin lähes väistämättä liittyy henkilötietoja. Monissa sosiaalisen median palveluissa profiili kytkeytyy suoraan oikeaan nimeen, mutta joidenkin tulkintojen mukaan esimerkiksi pelkkä Twitterin käyttäjänimi riittää yksilöimään käyttäjän henkilön. Tutkijan täytyy olla tietoinen sekä henkilötietojen käsittelyyn liittyvästä lainsäädännöstä, että ihmistutkimuksen eettisistä periaatteista. Ohjeistuksien peruspilareihin kuuluu tutkittavan koskemattomuuden säilyttäminen ja vahingoittamisen välttäminen sekä yksityisyydestä ja tietosuojasta huolehtiminen (ks. TENK).

Mikä on aineiston konteksti?

Verkkoaineistojen avulla voidaan käsitellä hyvinkin henkilökohtaisia ja arkaluontoisia teemoja, esimerkiksi uskontoon, poliittisiin mielipiteisiin tai seksuaaliseen suuntautumiseen liittyviä asioita. Tutkittavan fyysinen koskemattomuus tuskin on uhattuna, mutta leikepöydällä voi olla materiaalia, jonka analysointi tai julkistaminen voi tuottaa tutkittavalle vahinkoa esimerkiksi henkilömaineen tahriintumisen tai jopa post-traumaattisen stressin muodossa.

Association of Internet Researchersin eettiset ohjeet painottavat juuri vahingon aiheuttamiseen liittyvää harkintaa: mitä haavoittuvaisemmasta tutkittavasta tai teemasta on kysymys, sitä tarkemmin tutkijan velvollisuus on suojata tutkittaviaan:

“The greater the vulnerability of the community / author / participant, the greater the obligation of the researcher to protect the community / author / participant.” (Markham & Buchanan 2012, AoIR ethical guidelines)

Sosiaalisen median aineistojen käsittelyssä olennaisinta on kehittää tarkka ymmärrys aineiston kontekstista. On mahdotonta antaa yleispätevää vastausta esimerkiksi kysymykseen ”Aiheutuuko twiittien keräämisestä haittaa niiden lähettäjälle?”. Vastaus riippuu aina viestin lähettäjästä, aihepiiristä ja yhteiskunnallisesta kontekstista. Lopputulos riippuu myös analyysissa tehtävistä toimenpiteistä ja valinnoista.

Anonyymia analyysia

Perinteinen keino turvata tutkittavien henkilöiden oikeuksia on aineiston anonymisointi. Monessa yhteiskuntatieteellisessä tutkimuksessa on kuitenkin oleellista tietää, kuka viestin on kirjoittanut. Esimerkiksi yhteiskunnallisen vallankäytön tutkiminen ilman lähettäjätietoja on mahdotonta.

Silti on hyvä miettiä myös tutkimusprosessin aikana tarkasti, onko tutkijoiden tarpeen tietää tutkittavien identiteettejä. Omassa Digivaalit 2015 -tutkimuksessamme kerätyistä isoista aineistoista tunnistettiin nimellä ainoastaan vaaliehdokkaat. ansalaisten käyttäjänimet näkyivät vain numerosarjoina: tutkimusongelman valossa meillä ei ollut mitään tarvetta tietää, minkä niminen henkilö on kirjoittanut poliitikoille kommentteja.

Anonymisointi ei kuitenkaan ole oikotie onneen. Eri aineistoja yhdistämällä voi olla mahdollista luoda pelottavan tarkkoja henkilöprofiileja arkaluontoisistakin aiheista: klassisessa amerikkalaisessa esimerkissä terveystietoja sisältävä, anonymisoitu aineisto pystyttiin yhdistämään muutaman muuttujan avulla suoraan äänestäjärekisteriin. Tuoreessa tapauksessa pystyttiin profiiliosoitteiden avulla tunnistamaan lukuisia käyttäjiä anonyymista selainhistoriadatasta.

Lisäksi sosiaalisen median aineistojen kohdalla anonymisointi on osin kosmeettista. Julkisesta verkosta kerätty aineisto on kenen tahansa löydettävissä pelkästään tekstisisältöjen perusteella: esimerkiksi aineistolainaukseen poimitun twiitin lähettäjineen löytää Twitteristä hakukoneella. Siksi varovaisuusperiaate täytyy pitää mielessä aina tutkimustulosten raportointiin ja julkaisemiseen asti. Tutkija joutuu käytännössä punnitsemaan, näyttääkö hän lukijalle aineistonäytteitä parantaakseen argumentaatiotaan, vai pyrkiikö hän turvaamaan tutkittavien anonymiteetin.

Henkilötieto on henkilötietoa, mutta julkinen ei välttämättä julkista

Kenties paras muistisääntö sosiaalisen median aineistojen analyysin parissa työskentelevälle tutkijalle onkin ajatella ja käsitellä niitä koko ajan henkilötietoina. Yhdeksi apumitaksi kannattaa ottaa lakipykälät. Suomen laki henkilötietojen käsittelystä on – kansalaisten onneksi – sen verran tiukka, että sen pykälistä löytyy hyvää tukea myös tutkimusetiikan pohtimiseksi.

Laki pakottaa miettimään tarkemmin aineistojen tallentamista ja suojaamista. Suojaamaton pilvipalvelu on henkilötietoja sisältävälle tutkimusaineistolle yhtä väärä paikka kuin ruotsalaisten henkilötiedoille.

Laki ei kuitenkaan ota kantaa kaikkiin tutkimuksen kannalta tärkeisiin eettisiin kysymyksiin Sen näkökulmasta julkiset verkkokeskustelut ovat arkaluontoisinakin julkistettua tietoa, jonka käyttäminen aineistona on sallittua. Keväällä 2018 voimaan tuleva uusi EU:n tietosuoja-asetus näyttäisi jopa antavan entistä enemmän vapauksia henkilödatan tutkimuskäytölle.

Palaamme siis tärkeimmän opin äärelle: kontekstin ymmärtäminen ja aineiston käytöstä mahdollisesti aiheutuvien haittojen pohtiminen on tärkein osa tutkijan eettistä ammattitaitoa. Digitaalisten aineistojen käyttöön pätevät samat varotoimenpiteet kuin ei-digitaalisten aineistojen kohdalla: tutkittavien anonymisointi varsinkin lopullisessa julkaisussa, sekä tutkimuksesta tutkittaville mahdollisesti aiheutuvan harmin ja vahingon välttäminen tutkimusprosessin jokaisessa vaiheessa.

– –
Salla-Maaria Laaksonen, VTT,  on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.