Digitalisaatio arkkitehtuurisena innovaationa ‚Äď miten se vaikuttaa tutkimuksemme?

Nykyisin kukaan ei varmastikaan kyseenalaista digitalisaation merkitystä yhteiskunnassamme tai elämässämme. Rakkaalla lapsella on toki monta nimeä, tekoäly, algoritmi, tai ihan vain tietojärjestelmä. Yhteiskunnallinen muorros on haaste myös organisaatioille. Kuinka digitalisaatiota tulisi johdetaan ja onko vetovastuu tietotekniikkahallinnon, henkilöstöpuolen, liiketoiminnan vai markkinoinnin alueella? Asia on niin vaikea, että monessa organisaatiossa on päädytty luomaan uusi hieno tehtävä Chief Digital Officer. Tässä tehtävässä keskeisimpiä rooleja on yrittää napata kiinni tästä puuhasta.

Organisaatiot eivät ole ainoita, jotka kärsivät tästä ristiriitaisesta tilanteesta. Myös tieteen puolella on ollut jo pidempään kiivas keskustelu käynnissä aiheesta. Tutkimuksen ja opetuksen näkökulmasta tilanne on haastava: pitäisikö opetus keskittää johonkin laitokselle vai sirotella hajautetusti eri laitoksille? Mikä on tietojenkäsittelytieteen, yhteiskuntatieteen tai esimerkiksi kasvatustieteiden oppiaineiden rooli digitaalisuuden tutkimuskentällä? Ihan kuten organisaatioiden eri funktioiden, tieteenalojen väliin osuva touhu on usein hankalaa.

Miksi tämä on näin hankalaa?

Digitalisaation kotipesän löytäminen on hankalaa. Ilmiönä digitalisaatio muuttaa selvästi vaikuttaa moneen, mutta pohjimmiltaan ne ovat kuitenkin samanlaista. Esimerkiksi Kelan digitaalisen järjestelmä opintotuen hallintaan (joka oli olemassa jo silloin kun minä opiskelin!) on siihen klassiseen paperiseen opintotukilomakkeeseen verrattuna täysin uudenlainen tapa tuottaa palvelua. Samaan aikaan palvelun syvin olemus ei ole muuttunut: tuki myönnetään ehdot täyttävälle korkeakouluopiskelijalle ja sitten valvotaan opintopiste- sekä tulokertymien avulla sitä, kuka on oikeutettu niihin tukiin. Moni digitalisaation tuoma muutos on samanlaisia: keskeiset käsitteet eivät muutu, vaan se miten niiden kanssa toimitaan muuttuu.

Miten tätä digitalisaation tuomaa innovaatiota sitten voisi käsitteellistää? Henderson & Clark (1990) käsitteellistävät innovaatioista nelikenttää. On radikaaleja innovaatioita kun kaikki muuttuu ja inkrementaalisia innovaatioita kun asiat kehittyvät, mutta ne eivät käsitteellistesti muutu vaan vaihvistuvat. Lisäksi he huomioivat kaksi muuta innovaatiotyyppiä: modulaarisen innovaation, jossa käsitteistö kehittyy, mutta käsitteiden yhteys välineeseen pysyy samanlaisena. Esimerkkinä he käyttävät siirtymää analogisesta lankapuhelimesta digitaaliseen lankapuhelimeen: sykäyksien sijaan alettiin siirtämään nollia ja ykkösiä. Viimeinen ja mielestäni mielenkiintoisin innovaation esiintymisasu on arkkitehtuurillinen innovaatio, missä keskeiset käsitteet ja niiden takana olevat teoriat eivät muutu, mutta niistä muodostetaan jotain uutta ja mullistavaa. Esimerkiksi ensimmäinen iPhone oli esimerkki arkkitehtuurillisesta innovaatiosta: siinä ei varsinaisesti ollut insinöörityön osalta mitään radikaalisti uutta ja jopa sen käyttöliittymäideologia oli tutkijoiden tiedossa. Mutta järjestelmänä iPhone yhdisti selaimen, puhelimen, tekstiviestit, Internetin sekä kosketusnäytön uudeksi kokonaisuudeksi.

Hendersonin ja Clarkin (1990) artikkeliin on viitattu noin 10,000 kertaa. Selväsi tutkijoihin on vedonnut ajatus innovaatiosta ei vain teknologian ja käsitteiden murroksessa, vaan niiden kyvykkyytenä koota ja yhdistää asioita toisella tavalla. No miten tämä kaikki sitten liittyy siihen, miksi uskon niin tutkimusmaailman kun organisaatioiden tuskailevan digitalisaation kanssa? Digitalisaatio on malliesimerkki laajasta arkkitehtuurillisesta innovaatiosta: väitän, että harvoin muutoksessa on kysymys siitä, että kaikki laitetaan uusiksi ja useammin siitä, että pitäisi miettiä uudelleen, miten asiat liittyvät toisiinsa uuden lähestymistavan kautta Рmutta ne keskeiset austalla olevat tajatukset eivät välttämättä muutu. Tällainen jää usein huomaamatta organisaatioissa, jotka sitten tulevat yllätetyksi maailman muuttuessa ympärillä. Henderson & Clark (1990) argumentoivat, että eräs syy on organisaatioiden kyvyttömyys havaita ja käydä keskustelua tästä murroksesta, koska toimintaa ohjaavat käsitteet pysyvät muuttumattomina. Tämä legacy-käsitteistö sokeuttaa organisaatioita ja ei pakota välttämättömään muutokseen. Kuten kirjoittajat toteavat (pohdittuaan mikropiirien muutosta):

But it may also be that learning about new architectures requires a different kind of organization and people with different skills. An organization that is structured to learn quickly and effectively about new component technology may be ineffective in learning about changes in product architecture.

Yliopistolla olemme vieläkin jumissa perinteisissä organisaatiorakenteessa. Tietysti iso henkinen ja ainakin Helsingissä fyysinenkin etäisyys yhteiskunnallisten aiheiden ja tietojenkäsittelytieteen kannalta on ilmeistä. Toisaalta, yhteiskuntatieteiden sisälläkin pidämme hyvin yllä tieteenalojen välisiä eroja, kuten on historiallisesti aina ollut. Opetuksen organisaatiota Helsingissä yritettiin kovasti muokata Ison Pyörän aikana, mutta ainakin mitä olen nähnyt ja jutellut joidenkin opiskelijoiden kanssa, vanhat tieteenalat ovat vielä selkeästi esillä erilaisten linjojen, opintosuuntien ynnä muiden myötä. Helsingissä ainakin gradu- ja väitöskirjaseminaarit ovat ensisijaisesti määritelty oppiaineiden, linjojen tai opintosuuntien kautta. Jopa poikkitieteellisissä organisaatioissa, kuten esimerkiksi Helsinki Centre for Digital Humanitissa (HELDIG näin tuttujen kesken) tehtävät määritellään olemassa olevien rakenteiden, kuten tiedekuntien ja laitosten, kautta.

Estääkö nämä vanhat rakenteet meitä näkemästä miten vaikka asiat ovat samanlaisia kuin aina ennen, ne tavat miten ne yhdistyvät toisiinsa ovat muuttuneet? Olisiko tarpeen aidosti miettiä uudelleen sitä, kuinka järjestäydymme opetuksessa ja tutkimuksessa keskittyen tutkimaan muutoksia asioiden välisissä yhteyksissä silloinkin kun käsitteet eivät ole murroksessa? Olemmeko tarpeeksi rohkeita tähän?

Eth√§n kiusaa Anna-Liisa Goritmia

Anna-Liisa on aina ollut nopea laskija. Hän haaveili ammatista ihmislaskijana. Päivät koostuisivat laskemisesta ja lopputuloksen perusteella tehdyistä helpoista päätöksistä. Esimerkiksi hän rakasti aina illalla laskea seuraavan aamun sateen todennäköisyyttä ja jos todennäköisyys oli yli 85%, ottaa aamulla mukaansa sateenvarjon.

Kuitenkin ensimmäisen loskakuuron jälkeen Anna-Liisa oppi, että sateenvarjo olisi hyvä ottaa myös jos sateen todennäköisyys olisi korkea ja lämpötila olisi vähän pakkasella, varsinkin jos on loppusyksy. Kesäisen raekuuron jälkeen Anna-Liisa oppi lisää: sateenvarjoa vaativia tilanteita voisi olla todella monia. Olisi hyvin vaikea muistaa listata nämä kaikki säännöt etukäteen eikä unohtaa jotain. Hän huomasi, että on oikeastaan vaikea tunnistaa näitä etukäteen, ihmisen mielikuvitus kun on rajoittunutta. Tämän takia Anna-Liisa oli hiukan masentunut: voisiko hänestä koskaan tulla ihmislaskijaa?

Mietitty√§√§n asiaa hiukan, Anna-Liisa huomasi, ett√§ koska h√§n on niin nopea laskija ei aina tarvitsisi luoda s√§√§nt√∂j√§. Anna-Liisa tarkkaili kaikkia naapureitaan ja sit√§, koska naapurit ottavat sateenvarjonsa mukaan. Samaan aikaan h√§n katsoi mit√§ edelt√§v√§n illan s√§√§ennusteessa olikaan tapahtunut ja muodosti n√§iden esimerkkien pohjalta itse s√§√§nn√∂t sille, koska sateenvarjo kannattaisi ottaa mukaan. Eih√§n sateenvarjon mukaanotto aina onnistunut t√§ll√§ tavalla. Kerrankin Anna-Liisa ei ottanut sateenvarjoa mukaan, huomasi ett√§ keskip√§iv√§lll√§ satoi kissoja sek√§ koiria ‚Äď ja huomasi, ett√§ moni h√§nen naapurinsa oli ottanut sateenvarjon mukaan. Mutta Anna-Liisa oppi t√§st√§ taas yhdenlaisen tilanteen, jossa sateenvarjo kannattaisi pit√§√§ mukana.

Anna-Liisa huomasi, että moni muukin halusi tehdä päätöksiä samalla tavalla. He lähettivät Anna-Liisalle paljon esimerkkejä, joiden pohjalta Anna-Liisa pystyi itse laskemaan mitä sääntöjä oikeastaan olikaan. Sitten he soittivat Anna-Liisalle miltä tilanne näytti juuri nyt ja kysyivät mitä nyt kannattaisi tehdä. Tämä oli mukavaa ja lisäksi siitä maksettiin varsin hyvin.

Anna-Liisaa pyydettiin esimerkiksi arvioimaan sopivia vuokrien hintoja, arvioimaan ihmisen terveyttä sekä päättämään keille kannattaisi antaa sairasvakuutus tai keiden työhakemuksia tulisi tarkastella lisää. Vuokrien hinnoissa hänellä oli käytössä tietoja alueen kaikkien asuntojen vuokratasot. Kaikki toimi erinomaisesti: Anna-Liisa oppi sääntöjä näiden esimerkkien avulla.

Kuitenkin er√§√§n√§ p√§iv√§n√§ er√§s Anna-Liisan asiakas tuli juttelemaan Anna-Liisan kanssa. H√§nt√§ mietitytti, ett√§ miksi kaikki yli 50-vuotiaiden ty√∂hakemukset on hyl√§tty ep√§illen, ett√§ onko Anna-Liisalla ongelmia vanhempien ihmisten suhteen. Anna-Liisa vakuutti, ett√§ ei ole. Anna-Liisa oli kuullut monista yhdysvaltalaisista tutkimuksista, jotka kertovat kuinka esimerkiksi etnisen tausta vaikuttaa palkkaamiseen. ‚ÄĚEhk√§p√§ ongelma on esimerkeiss√§ eik√§ minun laskelmissa?‚ÄĚ Anna-Liisa pohdiskeli asiakkaansa kanssa.

Tarinan pohdiskelua ja avaamista

Tarina ehkä eniten kuvaa, ettei minusta koskaan olisi tullut erityisen hyvä kirjailija. Samaan aikaan se tuo esille minua ärsyttävää jännitettä yksinkertaistaa algoritmisia järjestelmiä ihmisten mielessä, mediassa sekä myös akateemisessa keskustelussa. Tämä blogipostaus on vastine toisaalta YLEn uutiselle tekoälystä ja syrjinnästä ja toisaalta nimettömälle TikTok-käyttäjälle.

Ylen uutisessa ansiokkaasti havaitaan, että ihmiset ovat mukana monessa osassa algoritmejä.

Dataa analysoiva tekoäly harrastaa nimittäin syrjintää.

‚Äď Data koostuu siit√§, miten ihmiset ovat el√§neet t√§h√§n asti, ja my√∂s teko√§ly on ihmisten kehitt√§m√§, Ollila sanoo.

Emme pääse eroon yhteiskuntamme ennakkoluuloista, vääristymistä tai syrjintämekanismeista ulkoistamalla päätöksemme koneelle

Mutta jo kahden kappaleen päässä ihmisen oma toimijuus on kokonaan unohtunut algoritmikritiikistä:

Siksi esimerkiksi Google-haun on todettu tarjoavan naisille pienempipalkkaisia työpaikkailmoituksia kuin miehille (siirryt toiseen palveluun) (The Guardian), ja työhakemuksia perkaava algoritmi voi aiemmista valinnoista oppineena rankata pois kaikki yli 50-vuotiaat. Samoin voi toimia vakuutusyhtiön tekoäly, vaikka emme niin haluaisi.

Ongelmahan ei varsinaisesti ole työhakemuksia perkaava algoritmi, vaan me ihmiset. Tämän ei pitäisi olla yllätys kenellekään, joka on hiukan tutustunut aihetta sivuavaan tutkimukseen. Työmarkkinoiden syrjintää on kenttäkokeellisilla asetelmilla saatu mitattua jo pitkään (esimerkiksi Bertrand & Mullainathan, 2004). Kun työmarkkinoilla on syrjintää, niin tietenkin työmarkkinoista kerätyssä aineistossa on näitä samoja ongelmia. Toistamme aikaisempia syrjiviä käytänteitä uusin keinoin.

TikTokissa tuntuu olevan myös trendaavana postaustyyppinä tehdä kaksi erilaista videota: toisessa hiukan enemmän paljasta pintaa ja toisessa taas vaatetusta. Tämä on yritys käyttäjiltä ymmärtää videoiden suosiota ja tehdä johtopäätöksiä siitä, suosiiko TikTok videoita, joissa on paljaampaa pintaa. Tässä testaamisessa kuitenkin unohtuu ihmisten oma rooli ja järjestelmän vuorovaikutteinen luonne. Jos katson ja tykkään toisesta videosta, sitä kannattaa näyttää enemmän myös muille: se on jo koukuttanut minut, joten se voi koukuttaa muitakin. Luultavasti tämän testauksen jäljiltä lopulta päädytään puhumaan vähemmän suosittelualgoritmeistä ja enemmän siitä, mitä me ihmiset oikeastaan teemme.

Kärjistetysti usein algoritmit ovat kuin autoja. Kun mediassa puhutaan auto-onnettomuudesta, käytetään usein fraaseja kuten auto ajaa ihmisen yli. Unohdetaan kokonaan, että harvoin ne autot ajavat itseään, vaan ratin takana on ihminen. (Ainakin vielä, suurista toiveistani huolimatta.) Samalla tavalla algoritmisten järjestelmien takana on lopulta ihmisiä.

Mitä sitten?

Mielest√§ni yksi iso ongelma liittyy tapaamme k√§ytt√§√§ sanoja algoritmi ja teko√§ly kun oikeasti tarkoitetaan koodin, aineistojen ja ihmisten muodostamaa algoritmist√§ j√§rjestelm√§√§. Isoin ongelma usein syntyy juuri j√§rjestelm√§n luonteesta. Esimerkiksi P√§√§kk√∂nen et al. (2020) kommentoivat, ett√§ kaikissa j√§rjestelmiss√§ on aina ep√§varmuutta ja sen hallinta luo valta-asetelmia. T√§ll√∂in kun ihmisten tekem√§√§ p√§√§t√∂ksentekoa korvataan algoritmisella j√§rjestelm√§ll√§, ep√§varmuus palloilee uudelle paikalle koodin, aineiston ja ihmisten sekamelskassa. Ja t√§m√§ luo uusia mahdollisuuksia vallank√§yt√∂lle ja kaikelle sekavuudelle ‚Äď josta loppupeleiss√§ usein p√§√§dymme syytt√§m√§√§n algoritmia.

T√§m√§n takia kannustaisin ihmisi√§ jotka pohtivat n√§it√§ asioita enemm√§n miettim√§√§n, miten voisimme laajentaa k√§sitteellist√§ repertuaariamme ja tuoda esille kuinka monimutkaisesti algoritminen p√§√§t√∂ksenteko toimii ja mit√§ kaikkea siell√§ onkaan mukana. T√§m√§n esilletuonti on my√∂s t√§rke√§√§, jotta ihmiset ymm√§rt√§isiv√§t kuinka monissa teko√§lyj√§rjestelmiss√§ lopulta kyse on muiden ihmisten tuottaman ja j√§sent√§m√§n datan hy√∂dynt√§misest√§. Muistatko kuinka yll√§tyksen√§ viime syksyn√§ monille tuli, ett√§ puheentunnistuksessa osaa aineistoa k√§ytet√§√§n laadun tarkkailuun ja parantamiseen ‚Äď ja ett√§ t√§t√§ aineistoa kuuntelevat muut ihmiset. Kuka muukaan voisi onnistuneesti tehd√§ t√§m√§n? Tietokone on vain opetettu n√§ytt√§m√§ll√§ todella paljon esimerkkej√§ √§√§nest√§ ja vastaavasta tekstist√§, mutta ei se ole n√§in √§lyk√§s.¬†

Ehkäpä tulevaisuudessa myös osaamme suunnitella algoritmisia järjestelmiä niin, että niissä tulee paremmin esille järjestelmän kokonaisluonne. Kelalla on jo töissä monia virkakielen huoltajia. Milloin palkataan ensimmäiset algoritmisten järjestelmien luettavuuden parantajat?

 

Julkisuuteen tuodun tiedon ja sen unohtamisen oikeutus – yleisen edun ja kehkeytymisen haasteita

Tutkija toimii osana laein säädeltyä yhteiskuntaa, joten tutkimukseen vaikuttavien lakien muutoksista on hyvä olla perillä Рne usein vaikuttavat tutkijoiden käytännön työhön. Tämän tekstin tarkoitus on osoittaa, että julkiseksi saatetun tiedon muuttuminen, esimerkiksi ryhmien ja identiteettien kehkeytymisen takia, on suuri laskennallisen yhteiskuntatieteen eteen avautuva eettinen rajaseutu. Yksittäisen tutkijan on tutkimastaan ilmiöstä riippuen hahmotettava erilaisten kehkeytymisprosessien luonnetta ja otettava huomioon, miten tutkittavien mieli ja sitä myötä tulkinnat saattavat ajan kuluessa muuttua.

cocoons-329070_1920

Taustaa

Online-aineistojen hankintaa ja käsittelyä formalisoi taannoin niin kutsuttu tietosuoja-asetus, lyhyemmin GDPR (Euroopan parlamentin ja neuvoston asetus luonnollisten henkilöiden suojelusta henkilötietojen käsittelyssä sekä näiden tietojen vapaasta liikkuvuudesta (yleinen tietosuoja-asetus), 2016). Nykyisen tietosuoja-asetuksen edeltäjä (Henkilötietolaki 1999) määritteli erikseen arkaluontoiset tiedot, joukossaan poliittinen suuntaus ja terveystieto. Koska arkaluontoisia tietojakin koskeva tutkimustyö oli aina sallittu, tutkijat määrittelivät sisäisillä säännöillään sen, millainen tieto täsmälleen käsitetään vaikkapa terveystiedoksi, ja miten sen arkaluontoisuuteen pitäisi käytännössä suhtautua.

GDPR-k√§sitteist√∂ss√§ arkaluontoisten, eli “erityisten henkil√∂tietoryhmien” (9. artikla) k√§sittely ei ole kielletty√§ sik√§li kun se “koskee henkil√∂tietoja, jotka rekister√∂ity on nimenomaisesti saattanut julkisiksi”. ‚ÄĚJulkisuuteen saatetulla tiedolla‚ÄĚ on kuitenkin muuttuva luonne. Yksi tutkijan uudistunut vastuu tietosuoja-asetuksen ja er√§iden muiden viimeaikaisten lakien ja tulkintojen j√§lkeen onkin hahmottaa, mik√§ milloinkin on se t√§sm√§llinen tieto, joka on nimenomaisesti saatettu julkiseksi. Kehkeytyvien ryhmien ja identiteettien tutkimuksen esimerkit osoittavat uudistuneita eettisten ja tulkinnallisten pohdintojen paikkoja.

Mikä halutaan unohtaa, mikä tieto milloinkin saatettiin julkiseksi ja mistä ei vielä tiedetä mitä julkisuuteen ollaan laittamassa tai miltä se voi tulevaisuudessa näyttää?

Jotkut tiedot on jossain vaiheessa saatettu julkisiksi, mutta my√∂hemmin ne halutaan poistaa julkisuudesta. GDPR:n tunnetuimpia seurauksia lienee niin kutsuttu “oikeus tulla unohdetuksi”; rekister√∂idyn oikeus pyyt√§√§ itse√§√§n koskevien tietojen poistamista. T√§m√§ oikeus on linjassa tutkimuksen kanssa, jonka mukaan enemmist√∂ online-tutkimuksen kohteista pit√§√§ ep√§mukavana ajatusta, ett√§ heid√§n my√∂hemmin poistamaansa Twitter-viesti√§ k√§ytett√§isiin tutkimuksessa (Fiesler and Proferes 2018). ‚ÄĚOikeus tulla unohdetuksi‚ÄĚ onkin hyv√§ esimerkki siit√§, kuinka lakeja kirjoitetaan ajan my√∂t√§ uudelleen ja tulkitaan eri paikoissa eri tavoilla. Aiempi Suomen henkil√∂tietolaki (1999) ei tunnistanut unohtamisen oikeutta lainkaan, jolloin tietojen poistamisen huomioon ottaminen j√§i tieteen sis√§isen ja jopa yksitt√§isen tutkijan pohdinnan varaan. GDPR:n (2016) mukaan henkil√∂tietojen k√§sittely ei ole lainmukaista en√§√§ sen j√§lkeen kun rekister√∂ity on perunut suostumuksensa, erityisesti silloin kun rekister√∂ity on antanut suostumuksensa lapsena. K√§sittelyn tulisi silti edelleen olla lainmukaista tutkimustarkoituksiin. Vaikka Fieslerin ja Proferesin (2018) tavoittamat tutkittavat eiv√§t siit√§ pit√§isik√§√§n, GDPR ei kiell√§ tutkijaa hy√∂dynt√§m√§st√§ tutkimuksessaan my√∂s poistettuja henkil√∂tietoja (kuten poliittisen kannan ilmaisevia Twitter-viestej√§). Muotoilullaan GDPR silti alleviivaa, ett√§ muissa konteksteissa moinen ei olisi mahdollista. Suomen tietosuojavaltuutettu ohjaa tutkijaa t√§ss√§ linjauksellaan, ett√§ rekister√∂idyll√§ ‚ÄĚei ole oikeutta‚ÄĚ poistattaa h√§nt√§ koskevia tietoja, jos tieto on “tarpeen” “yleisen edun” mukaisessa tutkimustarkoituksessa[1]. Suomalaisessa tulkinnassa ‚ÄĚyleinen etu‚ÄĚ menee n√§in yhdysvaltalaisten Fieslerin ja Proferesin tutkiman yksityisen edun edelle. GDPR ei kuitenkaan sit√§ edellyt√§.

Mit√§ t√§m√§ ‚ÄĚyleinen etu‚ÄĚ sitten k√§yt√§nn√∂ss√§ tarkoittaa? COVID-epidemian py√∂rteiss√§ voidaan nostaa esiin tietosuojavaltuutetun linjaama kansanterveyteen liittyv√§ yleinen etu, jota hahmottelee my√∂s hiljattain s√§√§detty, niin kutsuttu toisiolaki (Laki sosiaali- ja terveystietojen toissijaisesta k√§yt√∂st√§ 2019). Tutkimukseen vaikuttavassa lains√§√§d√§nn√∂ss√§ on kuitenkin m√§√§ritelty muitakin yleisi√§ etuja. Niin kutsutut tiedustelulait, (Laki sotilastiedustelusta 2019), sek√§ (Laki henkil√∂tietojen k√§sittelyst√§ rikosasioissa ja kansallisen turvallisuuden yll√§pit√§misen yhteydess√§ 2018), hahmottelevat nyky√§√§n my√∂s Suomessa rajalinjoja tutkijalle ja tutkittaville, joiden toimien voisi tulkita olevan kansallisen turvallisuuden kannalta kiinnostavia. T√§m√§n tyyppiset tutkimusaiheet eiv√§t ole suorastaan harvinaisia ‚Äď esimerkkin√§ palvelkoon kapinallisryhmien mobilisoituminen onlinealustoilla, kuten (K√§ihk√∂ 2020):n Ukrainaa k√§sittelev√§ss√§ julkaisussa. Tutkijan luonnollisesti kuuluu pohdiskella esimerkiksi sit√§, kuka kuuluu kapinallisryhm√§√§n, mill√§ perusteella, ja mill√§ perustein tutkittavat sek√§ tutkittava ryhm√§ valitaan ja identifioidaan. Asiaa mutkistaa se, ett√§ Internetiss√§ my√∂s leikitell√§√§n identiteeteill√§ (Lampinen, Lehtinen, and Cheshire 2014), ja toisaalta poliittisten ryhmien p√§√§m√§√§r√§t muokkautuvat v√§hitellen diskursiivisessa prosessissa (Tilly 2002). On siis oltava sensitiivinen sille, kuinka vakaasti joku on saattanut julkiseksi tiedon siit√§, ett√§ edustaa tietty√§ poliittista kantaa. Tutkijan valinnoilla voi olla viime k√§dess√§ tuomioistuinseuraamuksia.

‚ÄĚOikeus unohtaa‚ÄĚ ei siis koske aivan kaikkia tilanteita, mutta lains√§√§d√§nn√∂n aluevaltaukset eiv√§t ole pelk√§st√§√§n syy h√§m√§rt√§√§ tutkittavien poliittista kantaa viranomaisten pelossa. Laajemmin ymm√§rrettyn√§ tutkija tarvitsee sensitiivisyytt√§ niin sille, miten tutkittava tutkimuksessa kullakin hetkell√§ nimet√§√§n, kuin sille, kuinka h√§nen annetaan suhtautua menneisyyteens√§. GDPR:ss√§ esimerkkin√§ ‚ÄĚoikeudesta unohtaa‚ÄĚ k√§ytet√§√§n lapsena annetun suostumuksen peruuttamista. ‚ÄĚSuccess kid‚ÄĚ-meemi on kuitenkin ambivalentti √§√§riesimerkki tapauksesta, jossa yht√§ lapsuuden hetke√§√§n ei voi koskaan unohtaa, koska siit√§ on tullut osa kulttuurista kuvastoa[2]. Nuorison tutkimista Internet-kontekstissa on aiemmin ansiokkaasti pohtinut esimerkiksi (Tikka 2014), mutta kuinka tutkijoina otammekaan huomioon aikuiset, joiden suhtautuminen julkisuuteen saattamaansa tietoon muuttuu? Esimerkkej√§ usein staattisiksi oletettujen tietojen muutoksesta voidaan nimet√§ kaksi. Poliittisen kannan muuttumisen esimerkkin√§ palvelkoon radikaalin suomalaisen vastarintaliikkeen perustaja, joka katsoo menneisyytt√§√§n katumuksella, ja on kirjan julkaisemalla tehnyt aiempiin ajatuksiinsa pes√§eron (Holappa 2016). Toisen tyyppinen esimerkki ovat henkil√∂t, jotka haluavat jossain vaiheessa muuttaa usein staattiseksi oletettua ominaisuutta kuten julkiseksi saatettua ‚ÄĚsukupuoli‚ÄĚ-kategoriaa. Julkisiin esimerkkeihin kuuluvat sukupuoltaan korjanneet suomalainen kirkkoherra Aalto[3] ja yhdysvaltalainen ex-urheilija-televisiot√§hti Jenner[4]. J√§lkimm√§iset kaksi eiv√§t haastatteluissaan Holapan tavoin tuomitse aiempaa el√§m√§nvaihettaan. N√§it√§ hyvin erilaisia esimerkkej√§ yhdist√§√§ kuitenkin se, etteiv√§t ihmiset aina n√§yt√§ kaipaavan ‚ÄĚoikeutta unohtaa‚ÄĚ. He ty√∂st√§v√§t julkiseksi tiedoksi p√§√§tynytt√§ menneisyytt√§√§n ja nykyisyytt√§√§n osana ymp√§rist√∂√§√§n. T√§m√§ tutkijan tulee ymm√§rt√§√§ silloinkin, kun ty√∂st√§minen saatetaan vain osittain julkiseksi.

Pohdinnat kiertyvät lopulta yhden ja saman aiheen ympärille: Online-tutkijalle tarjoutuva julkisuuteen saatettu tieto on muuttuvaa. Se voi olla alkujaankin tulkinnanvaraista, ja mahdolliset tulkinnat muuttuvat ajan myötä. Esimerkiksi kehkeytyvät poliittiset ryhmät eivät suinkaan ole alusta asti päämäärätietoisia ja stabiileja. Niiden ideologia ja jäsenyys on etenkin alkuvaiheessa yleensä huokoista; rajat ovat vasta kehkeytymässä (Abbott 2014, 2016; Tilly 1978). Toisaalta erityisesti marginaalista nouseviin identiteetteihin on kehkeytymässä intersektionaalisuutta, jossa eri lähtökohdista ponnistavat identiteetit löytävätkin yhteneväisyyksiä toistensa kanssa (Abbott 2001; Crenshaw 1989; Tormos 2017). Käymistilassa olevien identiteettien kantajat toisaalta käyvät läpi omaa identiteettiprosessiaan, toisaalta hahmottelevat niin henkilökohtaisen kuin ryhmäidentiteettinsä intersektionaalisuutta muiden identiteettien kanssa.

On selv√§√§, ett√§ erityisesti kehkeytyvi√§ ilmi√∂it√§ hahmottelevan tutkijan on aktiivisesti suhteutettava aineistonsa ja tutkimuksensa eritasoisten kehkeytymisprosessien vaiheisiin, sek√§ ‚ÄĚunohtamisen‚ÄĚ ja ‚ÄĚyleisen edun‚ÄĚ problematiikkaan. Vaikka johtop√§√§t√∂s olisi, ett√§ t√§n√§√§n on ‚ÄĚyleisen edun‚ÄĚ mukaista tutkia transsukupuolisuuttaan 2010-luvun alussa kipuilleen nuoren online-viiltelykertomuksia, ei liene haittaa hahmotella silloin t√§ll√∂in my√∂s sit√§, miten omien aiempien aineistojen tulkinta muuttuisi ajan my√∂t√§.

Viitteet

Abbott, Andrew. 2001. Chaos of Disciplines. University of Chicago Press.

‚ÄĒ‚ÄĒ‚ÄĒ. 2014. The System of Professions: An Essay on the Division of Expert Labor. University of Chicago press.

‚ÄĒ‚ÄĒ‚ÄĒ. 2016. ‚ÄúSocial Order and Process.‚ÄĚ In Processual Sociology, University of Chicago Press, 198‚Äď232.

Crenshaw, Kimberle. 1989. ‚ÄúDemarginalizing the Intersection of Race and Sex: A Black Feminist Critique of Antidiscrimination Doctrine, Feminist Theory and Antiracist Politics.‚ÄĚ The University of Chicago Legal Forum: 139‚Äď68.

Fiesler, Casey, and Nicholas Proferes. 2018. ‚Äú‚ÄėParticipant‚Äô Perceptions of Twitter Research Ethics.‚ÄĚ Social Media and Society 4(1).

Henkilötietolaki. 1999. Finland. https://www.finlex.fi/fi/laki/ajantasa/kumotut/1999/19990523.

Holappa, Henrik. 2016. Min√§ Perustin Uusnatsij√§rjest√∂n ‚Äď Suomen Vastarintaliikkeen Ex-Johtajan Muistelmat. Into Kustannus.

K√§ihk√∂, Ilmari. 2020. ‚ÄúConflict Chatnography: Instant Messaging Apps, Social Media and Conflict Ethnography in Ukraine.‚ÄĚ Ethnography 21(1): 71‚Äď91.

Laki Henkilötietojen Käsittelystä Rikosasioissa Ja Kansallisen Turvallisuuden Ylläpitämisen Yhteydessä. 2018. Finland. https://www.finlex.fi/fi/laki/alkup/2018/20181054.

Laki Sosiaali- Ja Terveystietojen Toissijaisesta Käytöstä. 2019. Finland. https://www.finlex.fi/fi/laki/alkup/2019/20190552#Lidp446465968.

Laki Sotilastiedustelusta. 2019. Finland. https://www.finlex.fi/fi/laki/alkup/2019/20190590.

Lampinen, Airi, Vilma Lehtinen, and Coye Cheshire. 2014. ‚ÄúMedia Choice and Identity Work: A Case Study of Information Communication Technology Use in a Peer Community.‚ÄĚ In Communication and Information Technologies Annual, Studies in Media and Communications, Emerald Group Publishing Limited, 103‚Äď30. https://doi.org/10.1108/S2050-206020140000008020.

Tikka, Minttu. 2014. ‚ÄúTutkija Nuorten Mediamaailmassa.‚ÄĚ Nuorisotutkimus 32(3).

Tilly, Charles. 1978. From Mobilization to Revolution. Addison-Wesley.

‚ÄĒ‚ÄĒ‚ÄĒ. 2002. Stories, Identities, and Political Change. Rowman & Littlefield.

Tormos, F. 2017. ‚ÄúIntersectional Solidarity.‚ÄĚ Politics, Groups, and Identities 5(4): 707‚Äď20. https://doi.org/10.1080/21565503.2017.1385494.

 

[1] https://tietosuoja.fi/oikeus-poistaa-tiedot

[2] https://thetab.com/uk/2020/02/11/success-kid-meme-now-142830

[3] https://yle.fi/uutiset/3-11228614

[4] https://www.vanityfair.com/hollywood/2015/06/caitlyn-jenner-bruce-cover-annie-leibovitz

Kuka saa p√§√§tt√§√§, mit√§ dataa tutkijalla on k√§yt√∂ss√§√§n? Ei ainakaan amerikkalainen suuryritys

social media logos and light beams
Photo (cc) Kevin Dooley Flickr, edits by Salla L

Sosiaalisen median datan käyttöä tutkimuksessa suitsitaan nyt monelta kantilta. Tämän vuoden keväällä paljastuneen Cambridge Analytica -skandaalin jälkeen sekä Facebook että Twitter ovat uudistaneet pikavauhdilla datapolitiikkaansa. Samaan aikaan tutkijoita ja yliopistojen lakimiehiä on huolestuttanut toukokuussa voimaan tullut GDPR sekä Suomen tuleva uusi tietosuojalaki, joka on hyväksytty eduskunnassa marraskuussa.

On pelkästään hyvä asia, että aineistojen käyttöön kiinnitetään enemmän huomiota, ja että tutkijat joutuvat entistä tarkemmin miettimään aineistojen käytön oikeutuksia. Pohdinnoissa näyttäisi kuitenkin kummallisesti sekoittuvan aineiston tekninen saatavuus, laillisuus ja eettisyys.

Teknisestä näkökulmasta aineistojen saatavuus on hiukan hankaloitunut. Esimerkiksi Facebookin julkisilta sivuilta ei pysty enää rajapinnan (API) kautta lataamaan koneluettavassa muodossa viestejä kirjoittaneiden käyttäjien nimiä. Ryhmistä dataa saa ladata ainoastaan ryhmän ylläpitäjän luvalla. Yksittäisistä profiileista ladattavan datan käyttöä Facebook on rajoittanut jo huomattavasti aiemmin; toki käyttäjä voi halutessaan edelleen sovellusten kautta luovuttaa aineistojaan. Tämän kevään uudistusten myötä kuitenkin myös laajempia käyttäjätietoja tarvitsevat sovellukset joutuvat Facebookilla tarkempaan syyniin. Samanlainen prosessi on syntymässä myös Twitterin osalta: jatkossa jokaisen rajapintaa käyttävän sovelluksen on saatava Twitterin hyväksyntä.

Tutkijayhteis√∂ss√§ keskustelu API-rajoituksista on ollut varsin dramaattista. Tutkijat ovat kansainv√§lisesti huolestuneet Facebook-tutkimuksen tulevaisuudesta siin√§ m√§√§rin, ett√§ aiheesta on julkaistu kirjelmi√§ ja tehty listauksia rajapintojen avulla tehdyist√§ tutkimuksista. Akateemiset tutkijat ovat ‚Äď oikeutetusti ‚Äď huolissaan siit√§, ett√§ aineistojen saatavuuden rajoittaminen rajaa my√∂s tiettyj√§ tutkimusaiheita pois ja siten ohjaa tutkimusta. Toisaalta rajapintojen rajoitukset eiv√§t est√§ tutkijaa tutkimuseettisten rajojen ja lains√§√§d√§nn√∂n puitteissa ker√§√§m√§st√§ laadullista aineistoa esimerkiksi Facebook-ryhmist√§.

Toiset ovat huolestuneet palvelujen käyttöehdoissa (Terms of Service, TOS) mainittavista käytön rajoituksista. Joidenkin tulkintojen mukaan esimerkiksi YouTuben käyttö tutkimusaineistona ei ole lainkaan sallittua, koska palvelun käyttöehdot kieltävät palvelun muun kuin yksityisen käytön (jos tilanne olisi tämä Googlen mielestä, luulisi että joku niistä melkein kolmesta miljoonasta YouTube-hakusanalla löytyvästä tutkimusartikkelista olisi jo päätynyt raastupaan). Todennäköisesti amerikkalaisyrityksen ehdoista puuttuu erillismaininta akateemisesta käytöstä, koska se sisältyy jo Yhdysvaltojen lainsäädännössä olevaan fair use -pykälään.

GDPR:n ja Suomen tulevaisuudessa voimaan astuvan tietosuojalain myötä sosiaalisen median aineistojen henkilötietomaisuus on noussut uudella tavalla valokeilaan, vaikka tilanne ei käytännössä juuri ole muuttunut Suomen vanhaan henkilötietolakiin verrattuna.  Sosiaalisen median aineisto on käyttäjänimien vuoksi usein henkilödataa, ja tuoreiden tiukimpien tulkintojen mukaan sen kerääminen on nyt tietosuojasyistä kokonaan kielletty.

Sekä GDPR, tuleva tietosuoja-asetus että Suomen nykyinen henkilötietolaki mainitsevat kuitenkin tieteellisen tutkimuksen poikkeuksena henkilötietojen käsittelyyn. Tutkimus on erityisasemassa myös arkaluontoisia tietoja käsiteltäessä sekä rekisteröityjen oikeudessa tietojen poistoon (ns. oikeus tulla unohdetuksi ei automaattisesti päde, ks. Kohta 2.3.8). Henkilötietojen käsittely vaatii rekisteriselosteen ja GDPR:n ohjeistuksien mukaan myös vaikutustenarvioinnin, jos aineistossa on arkaluontoisia tietoja.

Lain noudattaminen ja tutkimuksen poikkeusasema eivät kuitenkaan tarkoita, että kaikenlainen henkilötietojen käsittely olisi eettisesti oikein, tai että kaikenlaisen avoimen aineiston käyttö olisi eettistä. Tämän määrittelee tutkimuseettinen harkinta, jonka periaatteet tiedeyhteisö on itse määritellyt ja joita se myös valvoo. Siksi GDPR:n nostattama keskustelu on tervetullutta ja omiaan parantamaan tutkittavien oikeuksia ja lisäämään tutkimusaineistoista käyttävää eettistä keskustelua. Aiemmin on ehkä luotettu liikaakin siihen, että TOS ratkaisee suostumuksen ongelmat, jotka on ikään kuin ulkoistettu yrityksen tuottamalle dokumentille. Samaan aikaan on varsin hyvin tiedossa, etteivät käyttäjät juuri lue käyttöehtoja.

Eettisen keskustelun keski√∂ss√§ on usein tutkittavan suostumus (informed consent). Tutkimuseettisen neuvottelukunnan ihmistieteiden eettinen ohjeistus muistuttaa, ett√§ tutkittavan ‚Äúsuostumuksen periaatteesta voidaan poiketa tutkittaessa julkistettuja ja julkisia tietoja sek√§ arkistoaineistoja‚ÄĚ. T√§st√§ n√§k√∂kulmasta sosiaalisen median aineistojen k√§ytt√∂√∂n ei tarvita tutkittavan suostumusta, jos aineisto on julkisesti saatavilla.

Oleellisempi on kuitenkin ohjeistuksen toinen kohta: vahingoittamisen välttäminen. Siihen keskittyy myös esimerkiksi Association of Internet Researchers AoIR:n eettinen ohjeistus. Vahingoittamisen välttäminen tarkoittaa esimerkiksi sosiaalisten ja taloudellisten haittojen minimointia sekä tutkimustulosten julkaisemisen mahdollisten seurausten pohdintaa. Se on keskeinen osa tutkimuseettistä harkintaa ja tutkijan ammattitaitoa.

Mutta tutkijalla on my√∂s toinen ammatillinen ja eettinen velvoite: tuottaa yhteiskunnalle kriittist√§ tietoa. Yhteiskunnalliset ilmi√∂t Suomessa ja muualla heijastuvat entist√§ isommin my√∂s digitaalisille alustoille. Siksi ei ole eettisesti kest√§v√§√§ tulkita lakeja ja k√§ytt√∂s√§√§nt√∂j√§ tiukasti niin, ett√§ amerikkalainen alustayritys sanelisi, mit√§ suomalainen tieteellinen tutkija saa sosiaalisesta mediasta tutkia. Sen sijaan se tarkoittaa, ett√§ eettisten pohdintojen perusteella toisinaan voi olla jopa perusteltua rikkoa k√§ytt√∂ehtoja ‚Äď alkaen esimerkiksi siit√§, ett√§ k√§ytt√∂ehtojen vastaisesti anonymisoidaan tutkimusaineisto. T√§llaista tieteen vapautta puolustaa my√∂s Suomen tuleva tietosuoja-asetus.

* Teksti: Salla-Maaria Laaksonen (Helsingin yliopisto, @jahapaula) & Margareta Salonen (Jyväskylän yliopisto, @MaakeSalonen)

Ps. Rajapinta ry. yhdessä MEVI ry:n kanssa järjestää 10. tammikuuta Tieteiden yössä tapahtuman, jossa kerromme sosiaalisen median aineistojen tutkimuskäytöstä. Työpajassa pääset myös itse penkomaan someaineistoja. Tervetuloa mukaan Tieteiden talolle!

Pps. Erinomaista pohdintaa tutkijoiden ja käyttöehtojen yhteiselosta kriminologian professori Matthew Williamsin ja kumppaneiden artikkelissa Sociology-lehdessä.

Miten GDPR vaikuttaa tutkijan ty√∂h√∂n?

Helsingin yliopistolla järjestettiin koulutus tutkijoille EU:n uudesta tietosuoja-asetuksesta GDPR:sta (General Data Protection Regulation). GDPR koskee henkilötietorekisterien keräämistä ja käsittelyä ja sen tarkoituksena on harmonisoida EU-maiden tietosuojalainsäädäntöä. Täysmittaisesti GDPR:n soveltaminen alkaa 25.5.2018. Tarkan kuvauksen GDPR:sta voi lukea esimerkiksi täältä tai täältä. Helsingin yliopiston työntekijöille koulutusmateriaali löytyy täältä.

Tutkimuksen etiikan periaatteet auttavat tutkijaa pitkälle myös uuden lain puitteissa (kts. esim. Sallan postaus verkkotutkimuksen etiikasta), mutta joitakin muutoksia nykykäytäntöihin tulee. Tässä havaintoja, jotka mielestäni vaikuttavat eniten tutkijan työhön varsinkin yhteiskuntatieteissä.

GDPR koskee henkilötietoja koskevia rekistereitä tai aineistoja, ja usein esimerkiksi kysely- tai haastatteluaineistot sisältävät henkilötietoja. Henkilötietona voidaan pitää mitä vaan tietoa, joka voidaan yhdistää johonkin luonnolliseen henkilöön. Itsestään selviä ovat nimet, sosiaaliturvatunnukset, osoitteet ja muut vastaavat tiedot, mutta myös esimerkiksi IP-osoitteet katsotaan henkilötiedoksi. Pseudonymisointi (salanimien tai numerotunnisteiden käyttö) on yleinen tapa ohittaa henkilötietojen käsittelyyn liittyviä haasteita, mutta laissa pseudonymisoitu tieto nähdään lähtökohtaisesti samoin kuin henkilötiedot paljastava, ei-pseudonymisoitu tieto. Tiedon anonymisointi onkin suositeltavaa aina kun mahdollista (henkilötiedot tai pseudonyymien lisätiedot/koodiavaimet pysyvästi poistettu).

Oma lukunsa ovat arkaluonteiset tiedot, joita ovat ainakin:

  • Rotu, etninen alkuper√§
  • Poliittiset mielipiteet, √§√§nestysk√§ytt√§ytyminen
  • Uskonnolliset tai filosofiset vakaumukset
  • Ammattiyhdistysliikkeen j√§senyys
  • Terveystiedot
  • Seksuaalinen suuntautuminen
  • Rikosrekisteri

Arkaluonteisen henkilötiedon tapauksessa tutkijan tulee laatia tietosuojaa koskeva vaikutustenarviointi (Data Processing Impact Assessment, PDIA). Lisätietoja löytyy täältä, ja varmasti kaikkien yliopistojen omilta lakimiehiltä tai tietosuojavastaavilta.

Henkil√∂tietojen ker√§√§misen yhteydess√§ pit√§√§ huomioida minimisaation periaate ‚Äď ker√§√§ ainoastaan ne henkil√∂tiedot, jotka ovat tutkimuksen kannalta v√§ltt√§m√§tt√∂mi√§, ja j√§t√§ muut ker√§√§m√§tt√§. Tietoja saa k√§ytt√§√§ ainoastaan siin√§ tarkoituksessa, johon lupa on annettu. Lupaa pyydett√§ess√§ tutkijan kannattaa ottaa huomioon aineistojen mahdollisen jatkok√§ytt√∂, ja pyyt√§√§ my√∂s siihen suostumus. Tieteellisen tutkimuksen tapauksessa my√∂s laissa s√§√§detyn teht√§v√§n suorittaminen tai yleinen etu voivat toimia laillisina henkil√∂tietojen ker√§√§misen ja k√§sittelyn perusteina.

Nickname

Suurin muutos aiempaan henkilötietolakiin on rekisterinpitäjän osoitusvelvollisuus, eli velvollisuus kirjallisesti osoittaa GDPR:n mukaisen toiminnan ja rekisteröityjen oikeuksien täyttämisen. Riittävät toimenpiteet määritellään riskianalyysin mukaan, eikä laki suoraan määrittele, mitä nämä toimenpiteet ovat. Rekisteröityjen oikeudet ovat:

  • Saada l√§pin√§kyv√§√§ tietoa rekisterist√§
  • P√§√§st√§ omiin tietoihin
  • Oikaista tietoja
  • Tulla unohdetuksi
  • Rajoittaa k√§sittely√§
  • Siirto-oikeus
  • Vastustamisoikeus

Tieteellinen tutkimus voi useimmissa tapauksia toimia poikkeuksena, jos tutkimuksesta on laadittu tutkimussuunnitelma, hankkeella on vastuullinen tutkija tai tutkimusryhmä ja henkilötietoja käytetään ainoastaan tutkimustarkoituksiin.

GDPR:ssä erotetaan rekisterinpitäjä ja henkilötietojen käsittelijä, joka toimii rekisterinpitäjän ohjeiden mukaisesti. Tieteellisen tutkimuksen tapauksessa rekisterinpitäjänä pidetään lähtökohtaisesti yliopistoa ja tutkijaa käsittelijänä. Tutkijoiden tulee siis noudattaa yliopiston tietosuoja- ja tietoturvasääntöjä, jotka kannattaa käydä läpi olemassa olevien henkilötietoja sisältävien aineistojen ja uusien aineistojen keräyksen osalta. Poikkeuksena on tutkimus, joka toteutetaan omalla ajalla ja rahalla, tai jos tutkija esimerkiksi omistaa aineiston itse. Tällöin väärinkäytöksistä seuraavat sanktiot voivat langeta rekisterinpitäjälle, eli yksittäiselle tutkijalle.

Viimeisenä huomiona nostan sopimuksen henkilötietojen käsittelystä (Data Processing Agreement, DPA), joka vaaditaan, kun tietojen käsittely ulkoistetaan. Koska esimerkiksi tietojen säilytys luetaan tietojen käsittelyksi, tutkijan tulee mm. ottaa huomioon, mitä pilvipalveluja työssään käyttää. Henkilötietoja sisältävät aineistot kannattaa siis aina säilyttää ensisijaisesti yliopiston palvelimella tai muuten yliopiston sisällä, eikä esimerkiksi Google Drivellä tai Dropboxissa.

Tässä siis huomioita, joita itse koulutuksesta tein. Kommentoi jos huomaat puuttuvia keskeisiä pointteja GDPR:stä tutkijan työn näkökulmasta!

Miten some-aineistoja sopii analysoida?

15422638442_cb6aeb137e_z
(cc) Janet McKnight, Flickr

Blogikirjoitus on rinnakkaispostaus Etiikka.fi-sivustolta ja sosiaalisen median tutkimusetiikkaa käsittelevää kirjoitussarjaa. Digitutkimuksen etiikan pohdinta jatkuu Rajapintapäivillä 2.11.!
– –

Yh√§ useampi yhteiskuntatieteellinen tutkija ty√∂skentelee sosiaalisesta mediasta ker√§ttyjen aineistojen parissa ‚Äď olivat ne sitten perinteisi√§, pienempi√§ otoksia tai isompia big data -aineistoja. Verkkoaineistojen kanssa ty√∂skentely on kuitenkin tutkimusta siin√§ miss√§ muukin tutkimus, ja eettiset ohjenuorat ovat ty√∂ss√§ kullanarvoinen apu.

Sosiaalisen median aineistojen analyysin erityispiirre on se, että aineistoihin lähes väistämättä liittyy henkilötietoja. Monissa sosiaalisen median palveluissa profiili kytkeytyy suoraan oikeaan nimeen, mutta joidenkin tulkintojen mukaan esimerkiksi pelkkä Twitterin käyttäjänimi riittää yksilöimään käyttäjän henkilön. Tutkijan täytyy olla tietoinen sekä henkilötietojen käsittelyyn liittyvästä lainsäädännöstä, että ihmistutkimuksen eettisistä periaatteista. Ohjeistuksien peruspilareihin kuuluu tutkittavan koskemattomuuden säilyttäminen ja vahingoittamisen välttäminen sekä yksityisyydestä ja tietosuojasta huolehtiminen (ks. TENK).

Mikä on aineiston konteksti?

Verkkoaineistojen avulla voidaan käsitellä hyvinkin henkilökohtaisia ja arkaluontoisia teemoja, esimerkiksi uskontoon, poliittisiin mielipiteisiin tai seksuaaliseen suuntautumiseen liittyviä asioita. Tutkittavan fyysinen koskemattomuus tuskin on uhattuna, mutta leikepöydällä voi olla materiaalia, jonka analysointi tai julkistaminen voi tuottaa tutkittavalle vahinkoa esimerkiksi henkilömaineen tahriintumisen tai jopa post-traumaattisen stressin muodossa.

Association of Internet Researchersin eettiset ohjeet painottavat juuri vahingon aiheuttamiseen liittyvää harkintaa: mitä haavoittuvaisemmasta tutkittavasta tai teemasta on kysymys, sitä tarkemmin tutkijan velvollisuus on suojata tutkittaviaan:

“The greater the vulnerability of the community / author / participant, the greater the obligation of the researcher to protect the community / author / participant.‚ÄĚ (Markham & Buchanan 2012, AoIR ethical guidelines)

Sosiaalisen median aineistojen k√§sittelyss√§ olennaisinta on kehitt√§√§ tarkka ymm√§rrys aineiston kontekstista. On mahdotonta antaa yleisp√§tev√§√§ vastausta esimerkiksi kysymykseen ‚ÄĚAiheutuuko twiittien ker√§√§misest√§ haittaa niiden l√§hett√§j√§lle?‚ÄĚ. Vastaus riippuu aina viestin l√§hett√§j√§st√§, aihepiirist√§ ja yhteiskunnallisesta kontekstista. Lopputulos riippuu my√∂s analyysissa teht√§vist√§ toimenpiteist√§ ja valinnoista.

Anonyymia analyysia

Perinteinen keino turvata tutkittavien henkilöiden oikeuksia on aineiston anonymisointi. Monessa yhteiskuntatieteellisessä tutkimuksessa on kuitenkin oleellista tietää, kuka viestin on kirjoittanut. Esimerkiksi yhteiskunnallisen vallankäytön tutkiminen ilman lähettäjätietoja on mahdotonta.

Silti on hyvä miettiä myös tutkimusprosessin aikana tarkasti, onko tutkijoiden tarpeen tietää tutkittavien identiteettejä. Omassa Digivaalit 2015 -tutkimuksessamme kerätyistä isoista aineistoista tunnistettiin nimellä ainoastaan vaaliehdokkaat. ansalaisten käyttäjänimet näkyivät vain numerosarjoina: tutkimusongelman valossa meillä ei ollut mitään tarvetta tietää, minkä niminen henkilö on kirjoittanut poliitikoille kommentteja.

Anonymisointi ei kuitenkaan ole oikotie onneen. Eri aineistoja yhdistämällä voi olla mahdollista luoda pelottavan tarkkoja henkilöprofiileja arkaluontoisistakin aiheista: klassisessa amerikkalaisessa esimerkissä terveystietoja sisältävä, anonymisoitu aineisto pystyttiin yhdistämään muutaman muuttujan avulla suoraan äänestäjärekisteriin. Tuoreessa tapauksessa pystyttiin profiiliosoitteiden avulla tunnistamaan lukuisia käyttäjiä anonyymista selainhistoriadatasta.

Lisäksi sosiaalisen median aineistojen kohdalla anonymisointi on osin kosmeettista. Julkisesta verkosta kerätty aineisto on kenen tahansa löydettävissä pelkästään tekstisisältöjen perusteella: esimerkiksi aineistolainaukseen poimitun twiitin lähettäjineen löytää Twitteristä hakukoneella. Siksi varovaisuusperiaate täytyy pitää mielessä aina tutkimustulosten raportointiin ja julkaisemiseen asti. Tutkija joutuu käytännössä punnitsemaan, näyttääkö hän lukijalle aineistonäytteitä parantaakseen argumentaatiotaan, vai pyrkiikö hän turvaamaan tutkittavien anonymiteetin.

Henkilötieto on henkilötietoa, mutta julkinen ei välttämättä julkista

Kenties paras muistis√§√§nt√∂ sosiaalisen median aineistojen analyysin parissa ty√∂skentelev√§lle tutkijalle onkin ajatella ja k√§sitell√§ niit√§ koko ajan henkil√∂tietoina. Yhdeksi apumitaksi kannattaa ottaa lakipyk√§l√§t. Suomen laki henkil√∂tietojen k√§sittelyst√§ on ‚Äď kansalaisten onneksi ‚Äď sen verran tiukka, ett√§ sen pyk√§list√§ l√∂ytyy hyv√§√§ tukea my√∂s tutkimusetiikan pohtimiseksi.

Laki pakottaa miettimään tarkemmin aineistojen tallentamista ja suojaamista. Suojaamaton pilvipalvelu on henkilötietoja sisältävälle tutkimusaineistolle yhtä väärä paikka kuin ruotsalaisten henkilötiedoille.

Laki ei kuitenkaan ota kantaa kaikkiin tutkimuksen kannalta tärkeisiin eettisiin kysymyksiin Sen näkökulmasta julkiset verkkokeskustelut ovat arkaluontoisinakin julkistettua tietoa, jonka käyttäminen aineistona on sallittua. Keväällä 2018 voimaan tuleva uusi EU:n tietosuoja-asetus näyttäisi jopa antavan entistä enemmän vapauksia henkilödatan tutkimuskäytölle.

Palaamme siis tärkeimmän opin äärelle: kontekstin ymmärtäminen ja aineiston käytöstä mahdollisesti aiheutuvien haittojen pohtiminen on tärkein osa tutkijan eettistä ammattitaitoa. Digitaalisten aineistojen käyttöön pätevät samat varotoimenpiteet kuin ei-digitaalisten aineistojen kohdalla: tutkittavien anonymisointi varsinkin lopullisessa julkaisussa, sekä tutkimuksesta tutkittaville mahdollisesti aiheutuvan harmin ja vahingon välttäminen tutkimusprosessin jokaisessa vaiheessa.

– –
Salla-Maaria Laaksonen, VTT,  on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.