Miten GDPR vaikuttaa tutkijan työhön?

Helsingin yliopistolla järjestettiin koulutus tutkijoille EU:n uudesta tietosuoja-asetuksesta GDPR:sta (General Data Protection Regulation). GDPR koskee henkilötietorekisterien keräämistä ja käsittelyä ja sen tarkoituksena on harmonisoida EU-maiden tietosuojalainsäädäntöä. Täysmittaisesti GDPR:n soveltaminen alkaa 25.5.2018. Tarkan kuvauksen GDPR:sta voi lukea esimerkiksi täältä tai täältä. Helsingin yliopiston työntekijöille koulutusmateriaali löytyy täältä.

Tutkimuksen etiikan periaatteet auttavat tutkijaa pitkälle myös uuden lain puitteissa (kts. esim. Sallan postaus verkkotutkimuksen etiikasta), mutta joitakin muutoksia nykykäytäntöihin tulee. Tässä havaintoja, jotka mielestäni vaikuttavat eniten tutkijan työhön varsinkin yhteiskuntatieteissä.

GDPR koskee henkilötietoja koskevia rekistereitä tai aineistoja, ja usein esimerkiksi kysely- tai haastatteluaineistot sisältävät henkilötietoja. Henkilötietona voidaan pitää mitä vaan tietoa, joka voidaan yhdistää johonkin luonnolliseen henkilöön. Itsestään selviä ovat nimet, sosiaaliturvatunnukset, osoitteet ja muut vastaavat tiedot, mutta myös esimerkiksi IP-osoitteet katsotaan henkilötiedoksi. Pseudonymisointi (salanimien tai numerotunnisteiden käyttö) on yleinen tapa ohittaa henkilötietojen käsittelyyn liittyviä haasteita, mutta laissa pseudonymisoitu tieto nähdään lähtökohtaisesti samoin kuin henkilötiedot paljastava, ei-pseudonymisoitu tieto. Tiedon anonymisointi onkin suositeltavaa aina kun mahdollista (henkilötiedot tai pseudonyymien lisätiedot/koodiavaimet pysyvästi poistettu).

Oma lukunsa ovat arkaluonteiset tiedot, joita ovat ainakin:

  • Rotu, etninen alkuperä
  • Poliittiset mielipiteet, äänestyskäyttäytyminen
  • Uskonnolliset tai filosofiset vakaumukset
  • Ammattiyhdistysliikkeen jäsenyys
  • Terveystiedot
  • Seksuaalinen suuntautuminen
  • Rikosrekisteri

Arkaluonteisen henkilötiedon tapauksessa tutkijan tulee laatia tietosuojaa koskeva vaikutustenarviointi (Data Processing Impact Assessment, PDIA). Lisätietoja löytyy täältä, ja varmasti kaikkien yliopistojen omilta lakimiehiltä tai tietosuojavastaavilta.

Henkilötietojen keräämisen yhteydessä pitää huomioida minimisaation periaate – kerää ainoastaan ne henkilötiedot, jotka ovat tutkimuksen kannalta välttämättömiä, ja jätä muut keräämättä. Tietoja saa käyttää ainoastaan siinä tarkoituksessa, johon lupa on annettu. Lupaa pyydettäessä tutkijan kannattaa ottaa huomioon aineistojen mahdollisen jatkokäyttö, ja pyytää myös siihen suostumus. Tieteellisen tutkimuksen tapauksessa myös laissa säädetyn tehtävän suorittaminen tai yleinen etu voivat toimia laillisina henkilötietojen keräämisen ja käsittelyn perusteina.

Nickname

Suurin muutos aiempaan henkilötietolakiin on rekisterinpitäjän osoitusvelvollisuus, eli velvollisuus kirjallisesti osoittaa GDPR:n mukaisen toiminnan ja rekisteröityjen oikeuksien täyttämisen. Riittävät toimenpiteet määritellään riskianalyysin mukaan, eikä laki suoraan määrittele, mitä nämä toimenpiteet ovat. Rekisteröityjen oikeudet ovat:

  • Saada läpinäkyvää tietoa rekisteristä
  • Päästä omiin tietoihin
  • Oikaista tietoja
  • Tulla unohdetuksi
  • Rajoittaa käsittelyä
  • Siirto-oikeus
  • Vastustamisoikeus

Tieteellinen tutkimus voi useimmissa tapauksia toimia poikkeuksena, jos tutkimuksesta on laadittu tutkimussuunnitelma, hankkeella on vastuullinen tutkija tai tutkimusryhmä ja henkilötietoja käytetään ainoastaan tutkimustarkoituksiin.

GDPR:ssä erotetaan rekisterinpitäjä ja henkilötietojen käsittelijä, joka toimii rekisterinpitäjän ohjeiden mukaisesti. Tieteellisen tutkimuksen tapauksessa rekisterinpitäjänä pidetään lähtökohtaisesti yliopistoa ja tutkijaa käsittelijänä. Tutkijoiden tulee siis noudattaa yliopiston tietosuoja- ja tietoturvasääntöjä, jotka kannattaa käydä läpi olemassa olevien henkilötietoja sisältävien aineistojen ja uusien aineistojen keräyksen osalta. Poikkeuksena on tutkimus, joka toteutetaan omalla ajalla ja rahalla, tai jos tutkija esimerkiksi omistaa aineiston itse. Tällöin väärinkäytöksistä seuraavat sanktiot voivat langeta rekisterinpitäjälle, eli yksittäiselle tutkijalle.

Viimeisenä huomiona nostan sopimuksen henkilötietojen käsittelystä (Data Processing Agreement, DPA), joka vaaditaan, kun tietojen käsittely ulkoistetaan. Koska esimerkiksi tietojen säilytys luetaan tietojen käsittelyksi, tutkijan tulee mm. ottaa huomioon, mitä pilvipalveluja työssään käyttää. Henkilötietoja sisältävät aineistot kannattaa siis aina säilyttää ensisijaisesti yliopiston palvelimella tai muuten yliopiston sisällä, eikä esimerkiksi Google Drivellä tai Dropboxissa.

Tässä siis huomioita, joita itse koulutuksesta tein. Kommentoi jos huomaat puuttuvia keskeisiä pointteja GDPR:stä tutkijan työn näkökulmasta!

Somekohun anatomia – Mikä selittää kohun kestoa?

Somekohun anatomia – Mikä selittää kohun kestoa?

Somekohu, someraivo, sometapaus – Sosiaalisen median aikaansaamat puheenaiheet tuntuvat nousevan ja kuolevan yhä kiihtyvällä tahdilla. Niin yritykset kuin yksilöt suhtautuvat kohuihin monesti kauhunsekaisin tuntein: miten toimia jos seuraavaksi se olenkin minä myrskyn silmässä? Toisaalta jonkinlainen kohu voi olla tavoitteena, jos halutaan mahdollisimman suuri huomio omalle tuotteelle tai brändille.

Markkinoinnin puolella tavoitteellinen kohuilu kategorisoituu viraalimarkkinonnin piiriin. Tavoitteena on, että ilman merkittävää markkinointipanostusta keskustelu esimerkiksi omasta uutuustuotteesta leviäisi kuin virus, ja erityisesti sosiaalisen median myötä viraalimarkkinointi on noussut tärkeään rooliin. Tutkimuksessa on paljon pohdittu, mitkä asiat edistävät keskusteluaiheiden viraalista leviämistä. Kolme kilpailevaa strategiaa nousee usein esille:

  1. Aiheen kylväminen (seeding) mielipidevaikuttajille
  2. Aiheen kylväminen kriittiselle massalle
  3. Aiheen kylväminen eri verkostoja yhdistäville yksilöille (ns. siltastrategia)

Täysin yksimielistä näkemystä parhaasta strategiasta ei ole, mutta mielipidevaikuttajat vaikuttavat olevan tärkeässä roolissa aiheiden leviämisessä, koska he yksinkertaisesti postaavat someen paljon ja osallistuvat herkästi erilaisiin tempauksiin. Toisaalta median ollessa ns. hybridinen mielipidevaikuttajat ja julkkikset saattavat olla erityisen tärkeitä, koska perinteinen media kirjoittaa heistä todennäköisemmin kuin meistä taviksista.

Usein aiheiden viraalisuutta tutkittaessa keskitytään aiheesta käytävän keskusteluun määrään. Lasketaan siis esimerkiksi postausten, jakojen, latausten tai katselukertojen määriä. Harvemmin tutkitaan, mitkä tekijät selittävät aiheesta käytävän keskustelun kestoa. Esimerkiksi nyt ajankohtaisista aiheista voi todeta, että #metoo-keskustelu on kestänyt jo kuukausia, kun taas Pirkko Arstilan kolumnista kohistiin vain hetken.

Tutkimme aihetta SSMA-hankkeen puitteissa hyödyntämällä tutkimuskumppanimme Futusomen kehittämää Viraalivahti-palvelua. Viraalivahti on kehitetty tunnistamaan keskusteluaiheita, jotka alkavat saada poikkeuksellisen paljon mainintoja normaaliin verrattuna. Inspiraationa Viraalivahdille on toiminut ns. Mutti-gate, joka sai alkunsa, kun kokki Henri Alén tammikuussa 2014 tviittasi tomaattikastikereseptin tunnisteella #soosi ja ihmiset ostivat kauppojen hyllyt tyhjiksi Mutti-tomaattikastikkeesta.

Tutkimuksessa tarkasteltiin Viraalivahdin tunnistamia eri viraalitapauksia tammikuusta 2015 maaliskuuhun 2017. Osa tapauksista nousi Mutti-gaten sfääreihin, kun taas suurin osa päättyi nopeasti sen jälkeen, kun algoritmi tunnisti sen. Keskityimme ainoastaan hashtag- ja avainsanaperusteisiin tapauksiin, jotka saivat algoritmilta heti ensimmäisenä päivänä riittävän korkean luokituksen. Näiden rajoitteiden myötä tutkittavien viraalitapausten määrä oli 1335. Esimerkiksi #halpuuttaminen ja ABC:n lehtipihvikohu nousivat aineistossa Mutti-gatea vastaaviksi viraalitapauksiksi.

Määrittelimme tapauksen keston laskemalla yhtäjaksoisten päivien määrän, jolloin aihe sai vähintään yhden maininnan. Rajasimme pois yli 30 päivää kestävät keskustelut, koska ne tulkittiin koskevan jatkuvia keskusteluaiheita. Jäljelle jäi 960 viraalitapausta, joita koskevia mainintoja haettiin Futusomen rajapinnan avulla eri some-kanavista, kuten keskustelufoorumeista, avoimista Facebook-keskusteluista, Twitteristä, Instagramista, blogeista, uutiskommenteista, ja niin edelleen. Tällöin aineisto käsitti yhteensä lähes 14 miljoonaa some-postausta. Kuva näyttää, miten data jakautui eri alustoille.

Somekohu_saitit

Tapausten kesto oli keskimäärin noin kolme päivää hashtag-perusteisille ja noin yhdeksän päivää avainsanaperusteisille tapauksille. Lisäksi määrittelimme keskimääräisen päivittäisen postausten, keskustelijoiden ja keskustelukanavien määrän, sekä postausten, keskustelijoiden ja kanavien suhteellisen muutoksen ensimmäisen päivän jälkeen. Eri mallinnustavoilla esille nousi selkeä tekijä, joka selitti tapauksen kestoa: Mitä useammilla eri keskustelukanavilla aiheesta puhuttiin, sitä kauemmin se kesti. Postausten tai keskustelijoiden määrällä ei ollut vaikutusta aiheesta käytävän keskustelun kestoon.

Tuloksen perusteella voi väittää, että keskusteluaiheilla on lyhyempi elinkaari yksittäisten kanavien sisällä ja uudet kanavat ja yleisöt ovat edellytys keskustelun pidemmälle jatkumiselle. Tulos myös tukee eri verkostoja yhdistävien yksilöiden merkitystä viraalitapausten jatkumisen näkökulmasta. Todennäköisesti myös perinteisten medioiden mukaantulo edistää keskustelun jatkumista nimenomaan laajentamalla keskustelua uusiin kanaviin.

Lopuksi vielä vinkki niille, jotka haluavat välttää somekohuja: vaikka yhdessä kanavassa yhtenä päivänä ei-toivotusta aiheesta keskustellaan paljon, älä huolestu, sillä keskustelu ei välttämättä jatku kauan – ellei se leviä muihin kanaviin.

Tutkimus esitellään tammikuussa 2018 Hawaii International Conference on System Sciences -konferenssissa otsikolla “Anatomy of Viral Social Media Events” ja sen ovat laatineet Essi Pöyry, Salla-Maaria Laaksonen, Arto Kekkonen sekä Juho Pääkkönen.