Näin laadullinen tieto jalostuu laskennalliseksi: piirteet sosiaalisen median analytiikassa

Jukka Huhtamäki & Salla-Maaria Laaksonen

Sosiaalisen median laskennallinen analytiikka perustuu piirteisiin (engl. feature). Piirteellä viitataan sosiaalisen median toimijoiden ja heidän tuottamien sisältöjensä ominaisuuksiin. Twitter-käyttäjällä on esimerkiksi tietty määrä seuraajia ja seurattavia ja twiiteissä käytetään aihetunnisteita. Valtaosa analytiikasta nojautuu tällä hetkellä helposti mitattaviin, numeerisiin ominaisuuksiin, kuten tykkäysten, retweettausten tai seuraajien määrään Twitterissä tai suorista mittauksista johdettuihin summalukuihin, kuten Facebookin engagement tai impressions.

Modernit laskennalliset keinot mahdollistavat jalostetumpaakin piirreanalyysia. Twiittien ja muiden tekstisisältöjen tunnesävyn eli sentimentin analyysi on esimerkki analytiikan keinoin tuotetusta jalostetusta piirteestä. Verkostoanalyysillä voidaan tuottaa piirteitä toimijoiden rakenteellisesta sijainnista verkostokokonaisuudessa. Vastaavasti esimerkiksi Instagram-kuvista voidaan tuottaa piirteitä — onko kuvassa henkilö, minkälainen tausta on, paistaako aurinko?

Piirteiden olennaisin hyöty on se, että ne jalostavat laadullista tietoa laskennalliseksi. Piirteiden avulla voidaan sekä tuottaa tutkittua tietoa syy-seuraussuhteista että opettaa koneoppimisen keinoin algoritmeja tunnistamaan kiinnostavia ilmiöitä. Niitä voivat olla esimerkiksi uuden trendi-ilmiön nousu, muutos asiakkaiden suhtautumisessa yritykseen tai jopa poliittinen liikehdintä. Näin isot ja abstraktit ilmiöt käytännössä rakentuvat jonkinlaisen piirteiden yhdistelmän päälle: anonyymien kirjoittajien määrä kasvaa, käytettyjen hashtagien jakauma pienenee, tai vaikkapa keskusteluissa kehittyy aiemmin tuntematon sana tai aihepiiri.

Mitä twiitistä saa irti?

Yksinkertaisimmillaan viestien analyysi keskittyy tiettyihin sanoihin ja käsitteisiin, joita voidaan palauttaa perusmuotoon ja tarkkailla esimerkiksi tietyn termin esiintymistä aineistossa ajan yli. Vielä yksinkertaisempaa on seurata esimerkiksi täsmällisesti merkittyjä hashtageja.

Mutta mitä muuta viesteistä saa irti kuin sanoja? Syvällisempi piirteisiin keskittyvä lähestymistapa on esimerkiksi tarkastella viestin sävyjä. Esimerkiksi Mike Thelwallin kehittämä SentiStrength -sentimenttianalyysikirjasto tulkitsee kirjoittajan suomenkielisen olevan sävyltään positiivinen:

sentistrenght-sallantwiitti

Presidentti Sauli Niinistön englanninkielinen twiitti saa vielä positiivisemman arvion:

sentistrenght-niinistontwiitti

Kuvan piirteiden analyysi on jo hitusen monimutkaisempaa, mutta sekin onnistuu. Microsoftin Computer Vision API tunnistaa, että Niinistön twiittaamassa kuvassa esiintyy varmasti ihmisiä, 86% todennäköisyydellä he seisovat ja 50% todennäköisyydellä poseeraavat. Tämän syvällisemmäksi menevien tulkintojen tekeminen on kuitenkin jo vaikeaa: koneen olisi melkoisen mahdotonta tulkita esimerkiksi taustalla näkyvän vartijan mahdollista silmien pyörittelyä, vaikka tällainen ironinen viesti onkin ihmistulkitsijalle melko selkeä.

niinistontwiitti

Mitä hyötyä piirteiden tunnistamisesta on?

Piirteiden tunnistamisen hyödyntämisessä on syytä erotella eri käyttötarkoitukset. Tutkimuskäytössä on usein tärkeää yksilöidä tarkasti piirteet ja todistaa niiden yhteys tutkittavaan ilmiöön tilastollisesti. Monessa käyttötarpeessa kuitenkin riittää, jos suurin osa aineistosta osuu kohdalleen tai jos automatiikalla saadaan edes pienennettyä manuaalista työtä – esimerkiksi keskustelupalstojen moderoinnissa tai asiakaspoistuma-analyysissä.

Asiakaspoistuma-analyysissä toteutuneista poistumista kerätään opetusaineisto, jossa piirteitä käytetään esimerkiksi asiakkaan brändiin liittyvien viestien tunnistamiseen ja luokittelemiseen vaikkapa tunnesävyn perusteella. Analyysin tavoitteena on, että sosiaalisen median datan perusteella saadaan esimerkiksi tunnistettua sopimuksensa pian irtisanova asiakas. Ollakseen uskottavaa, tällaisen tunnistuksenkin tulisi pohjautua mahdollisimman tarkasti todennettuun ja eri konteksteissa toistettuun yhteyteen. Ylipäänsä on hyvä muistaa ettei mikään automaattinen luokittelu pääse sadan prosentin tarkkuuteen – ei edes ihmisten tekemä.

Kentän kehittymistä hidastaakin myös koneoppimisen kontekstisidonnaisuus: esimerkiksi vihapuhetta tunnistava luokittelija osaa tunnistaa puheen vain sillä kielellä ja siinä kontekstissa, mihin se opetettu. Valtaosa koneoppimisesta onkin ohjattua koneoppimista, jossa koulutusmateriaaleina käytetään ihmisten luokittelemia esimerkkidatasettejä. Siksi opetusdatasetit ovat tekoälyajan tärkein resurssi.

Mitä tulevaisuudessa?

Koneoppiminen on elimellinen osa piirteisiin perustuvaa someanalytiikkaa. Regressioanalyysi, luokittelu ja ryvästäminen mahdollistavat analytiikan eri vaiheet kartoittavasta kuvailevaan ja ennustavasta ohjaavaan. Tällä hetkellä erityisesti konenäköön liittyvä koneoppimisen tutkimus keskittyy syväoppimiseen (katso esimerkiksi Tuomo Hiippalan palkittu tutkimus sotilasajoneuvojen tunnistamisesta sosiaalisen median kuva-aineistoista), mutta myös syväoppimiseen perustuvissa tekstiaineiston luokittelusovelluksissa on otettu merkittäviä askeleita (Kipf, 2016).

Koneoppimismallien ennustuskyky on parantunut merkittävästi, mutta mallit ovat yhä mustia laatikoita — mallin yksityiskohdat jäävät usein ainoastaan koneen tietoon tai eivät avaudu ihmistulkitsijalle. Tästä syystä onkin kiinnostavaa seurata, miten syväoppiminen ja muut edistyneet koneoppimismenetelmät saadaan parhaalla tavalla valjastettua sosiaalisen median analytiikan tueksi.

Lisälukemista:


Teksti on tuotettu DEEVA– ja SSMA-tutkimushankkeiden yhteistyössä.

Algoritminen julkisuus on vinoutunutta kyborgijulkisuutta

2453788025_fd51aeb4d9_z
(cc) runran @Flickr

Teknologia nähdään helposti neutraalina tiedonvälittäjänä. Moni viestinnän ammattilainen ei tiedä, miten teknologia toimii tai miten sen kanssa pitäisi toimia. Meidän pitäisi kuitenkin olla yhä tietoisempia siitä, miten esimerkiksi algoritmit meitä  tulevaisuudessakin ohjaavat.

“Software is, in other words, a part of a ‘technological unconscious’ (Clough, 2000), a means of sustaining presence which we cannot access but which clearly has effects, a technical substrate of unconscious meaning and activity.” (Thrift, 2005)

Maantieteilijä-sosiologi Sir Nigel Trift on käyttänyt teknologisen tiedostamattoman käsittettä kuvaamaan teknologian ja ohjelmistojen vaikutusta eräänlaisena sosiaalisen elämän kehikkona, joka tiedostomattomasti vaikuttaa toimintaamme.

Viestinnän ja julkisuuden näkökulmasta teknologisen tiedostamattoman käsite kuvaa kahta asiaa: Ensinnäkin niitä informaatioteknologian tuntemattomia ominaisuuksia ja tapoja, jotka muokkaavat arkea ja erityisesti media-arkeamme, mutta joista emme useinkaan ole kovin tietoisia. Toisaalta käsite muistuttaa siitä, että monella viestinnän ammattilaisella ei ole tarpeeksi tietoa siitä miten teknologia lopulta toimii tai miten sen kanssa pitäisi toimia.

Teknologinen tiedostamaton määrittelee monella tapaa sitä, miten julkisuus muotoutuu. Keskeisin tämän hetken julkisuuden rakennuspalikka on newsfeed, uutisvirta, joka eri palveluissa jäsentää verkon sisältöjä pyrkien maksimoimaan huomion ja palvelussa vietetyn ajan. Käytännössä tämä tapahtuu erilaisten algoritmien avulla: pienet tietokoneohjelmat tai laskukaavat ohjaavat sisällön esittämistä aiempaan käyttäytymiseemme perustuen.

Huolestuttavaa on, että teknologia nähdään neutraalina tiedonvälittäjänä. Vuoden 2017 Edelman Trust Barometerissä vastaajat arvioivat hakukoneet kaikkein luotettavimmaksi tiedonlähteeksi. Perinteisen median luottamus puolestaan on romahtanut. Teknologia vaikuttaa puolueettomalta ja virheettömältä toimijalta samalla kun perinteinen media nähdään eliitin käsikassarana.

Algoritmit ovat kuitenkin tasan yhtä hyviä kuin mekin. Ihmisten toimintatavat, vinoumat ja virhekäsitykset siirtyvät suoraan niihin joko ohjelmoinnin tai koneoppimisen kautta. Hakukone suoltaa sisältöä, josta se arvelee etsijän pitävän aiemman verkkokäyttäytymisen perusteella. Teknologia tuottaa kaikukammioita, koska ihmiset ovat sosiaalisessa toiminnassa tyypillisesti mieluten oman viiteryhmänsä kanssa. Työnhakualgoritmi syrjii tummaihoisia. Microsoftin tekoälybotti jouduttiin ottamaan pois linjoilta, kun se oppi päivässä suoltamaan rasistista vihapuhetta Twitterin elämänkoulussa.

Sisältöjen kohdentamisessa ja teknologiajättien bisnesmallina vinotkin algoritmit kuitenkin toimivat hyvin. Facebook tahkoaa rahaa 6,4 miljardin dollarin liikevaihdolla. Käyttäjämäärät suosituissa sosiaalisen median palveluissa jatkavat kasvuaan, ja alustat tuottavat uusia toimintamuotoja, joilla pyritään maksimoimaan niissä vietetty aika. Julkisuuden ja demokratian kannalta kuitenkin ongelmallista on, että algoritmi ei osaa tehdä eroa eri sisältöjen välillä. Se tarjoilee samalla logiikalla kenkiä, lääkkeitä ja politiikkaa. Syyskuussa 2017 Facebookissa pystyi esimerkiksi kohdentamaan mainoksia suoraan juutalaisvihaajille.

Rahalla siis saa. Bisneslogiikan nimissä samaan aikaan mediayhtiöt ovat huomanneet, että Facebookin algoritmi näyttää entistä vähemmän mediatalojen postauksia niiden seuraajille. Sen sijaan se painottaa sosiaalisuutta ja engagementtia: newsfeedissä näkyy todennäköisimmin sisältöjä, joita kaverisi ovat jakaneet, tykänneet tai kommentoineet. Faktoilla ei tässä pelissä ole arvoa. Sen sijaan tunteilla ja epärehellisyydellä on.

Tämä logiikka on voimalain logiikkaa (Matthew effect). Mikä tahansa tahmainen, ihastuttava tai vihastuttava sisältö päätyy todennäköisemmin näytetyksi, ja sisällön suosio kasvaa entisestään. Siksi julkisuudestamme muodostuu väistämättä tunnejulkisuus, joka etenee kohusta toiseen. Teknologinen tiedostamaton on siis lopulta hybridiä ihmisyyttä, julkisuuden muodostumista kyborgitoimijoiden kautta.

Viestinnän ammattilaisen näkökulmasta huolestuttavaa on se, että teknologian edistämä logiikka hiipii myös niihin tapoihin, joilla viestintää tehdään ja mittareihin, joilla sitä mitataan. Klikkien tuijottamisesta on kenties päästy piirun verran eteenpäin, mutta nyt uusi mittari, jota kaikki maanisesti tuijottavat on sisällön aikaansaama sitoutuminen, engagament.

Se on muuten Facebookin kaupallista menestymistä varten tehty mittari.

Mitäpä jos pakasta napatun mittarin sijasta viestinnän ammattilaiset itse rohkeasti määrittelisivät, mitä on hyvä viestintä, mitä on vaikuttavuus ja miten sitä halutaan mitata?

– –
Salla-Maaria Laaksonen (VTT) on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.

Blogikirjoitus on rinnakkaispostaus Viesti ry:n blogista. ja perustuu HY+:n ja Viesti ry:n Viestinnän tulevaisuus -tilaisuudessa 26.9.2017 pidettyyn puheenvuoroon.

Kestävämpiä digitalisia ratkaisuja verkostoitumiseen ja yhteistyökumppanien valintaan?

Rajapinta.co:n kuukausitapaaminen Tampereella 29.9. vahvisti heikkoja siteitä paikallisiin tutkijoihin. Poimintana tapaamisesta, seuraavassa tiivistelmä järjestäjien tutkimusagendasta, joka paitsi sijoittuu teknologian ja yhteiskunnan rajapintaan myös demonstroi usean tieteenalan mielenkiintoista yhteistyötä. Agenda liittyy Thomas Olssonin (ihminen-teknologia vuorovaikutus), Jukka Huhtamäen (verkostoanalytiikka ja datatiede) ja Hannu Kärkkäisen (tietotyö ja arvonluonti) COBWEB-akatemiahankkeeseen sekä Big Match Tekes-hankkeeseen.

Ihmisten välistä sosiaalista sovittamista (engl. social matching tai matchmaking) tapahtuu työelämässä mm. rekrytointiprosesseissa, tiimien muodostamisessa ja verkostoitumisessa. Sopivan henkilön, yhteistyökumppanin tai tiimin tunnistaminen ja valinta vievät paljon aikaa ja intuitiiviset “mätsäämisen” käytännöt ovat alttiita inhimillisille vinoumille. Esim. verkostointitapahtumissa on yleistä, että samankaltaiset ihmiset vetävät puoleensa toisiaan; tällainen homofilia on kuitenkin tietotyön tuottavuudelle vahingollista. Uskomme, että rohkaisemalla ihmisiä kohtaamaan erilaisista taustoista tulevia, eri yhteisöjen jäseniä voidaan edistää tietotyössä olennaista ideoiden ristiinpölyttymistä ja moninäkökulmaista, verkottunutta arvonluontia.

Tavoitteenamme on suunnitella ja toteuttaa sosiaaliseen massadataan, verkostoanalytiikkaan ja koneoppimiseen perustuvaa tietoteknologiaa, joka mahdollistaa digitaalisia tapoja sovittaa, ryhmäyttää ja törmäyttää ihmisiä työelämässä. “Työelämän Tinder” on mainio vertauskuva, mutta parinvalinnan periaatteet ovat työelämässä aivan erilaiset kuin yksityiselämässä. Tutkimuksemme peruslähtökohta on, että datapohjaisilla tavoilla voidaan tunnistaa otollisia, toisiaan sopivasti täydentäviä osaajakombinaatioita ja siten tuottaa positiivista sosiaalista serendipiteettiä. Tavoite voisi konkretisoitua esim. diversiteettiä lisäävinä henkilösuosittelujärjestelminä (diversity-enhancing people recommender systems) tai uudenlaisina yhteistyökumppaneiden haku- tai selausjärjestelminä.

Sosiaalinen massadata eli “Big Social Data” (esim. sosiaalisen median sisällöt ja profiilit, portfoliot, verkostot) voivat rikastaa palvelujen kautta syntyvää kuvaa kustakin käyttäjästä. Nykyiset profiilit esim. työnhaussa ovat yleensä käyttäjän itse laatimia ja siksi kovin staattisia ja sisällöltään rajoittuneita. Esim. twiitit voivat kertoa paljon henkilön tämän hetken kiinnostuksen kohteista ja tulevaisuuden visioista, kun taas esim. verkossa olevat ammatilliset julkaisut ja esitykset voivat kertoa henkilön yksityiskohtaisesta osaamisesta. Tunnistamalla relevantteja yhteisiä teemoja ja komplementaarisia osaamisia esim. tapahtuman osallistujien välillä voidaan automaattisesti tunnistaa potentiaalisia pareja, joiden kannattaisi keskustella lisää. Sosiaalisten verkostojen analyysillä voidaan paitsi arvioida henkilöiden keskinäistä suhdetta ja verkoston kokonaisrakennetta myös tunnistaa yhteisiä kontakteja ja ns. heikkoja siteitä (weak ties).

Tarkoituksenamme on lisäksi tarjota positiivinen skenaario sosiaalisen median datan käytölle ja digitalisaatiolle yleensä. Ehkäpä tällaisten kaikkia hyödyttävien palvelujen kehittäminen hälventää ihmisten yksityisyydensuojan menettämisen pelkoa sekä motivoi yrityksiä avaamaan data-aineistojaan laajemmin hyödynnettäviksi?

Uusien palveluiden ideointi ja utopististen tulevaisuuskuvien maalailu on kuitenkin huomattavasti helpompaa kuin niiden toteuttaminen. Data-keskeisiä haasteita ovat mm. sopivan datan saatavuus eri palvelujen ja palveluntarjoajien siiloista, datan keräämisen ja analysoinnin yksityisyyteen liittyvät ja muut eettiset haasteet sekä massadatan kehittymättömät analyysi- ja visualisointimenetelmät. Sovittamisen sosiaalipsykologiset haasteet ovat jopa vielä monimutkaisempia: “sopivan” henkilön tai organisaation tunnistaminen vaatii ymmärrystä mm. sovitettavien tahojen mahdollisista yhteistyötarpeista, ja jokaisella sovittamistilanteella on uniikki tavoite ja erityispiirteitä, jotka pitäisi ottaa huomioon järjestelmän päätöksenteossa. Digitaalisten sisältöjen suosittelujärjestelmistä tuttuja menetelmiä (esim. social filtering) ei siis voida suoraan hyödyntää.

Kokonaisuuteen vaikuttavat myös käyttäjäkokemukselliset erityispiirteet: miten saada käyttäjä luottamaan teknologian tekemiin päätelmiin ja suosituksiin henkilöistä? Miten saada ihmiset delegoimaan osan päätäntävallastaan ja toimijuudestaan teknologialle, varsinkin näin perustavanlaatuisen inhimillisellä sovellusalueella? Miten sinä kokisit sen, että kännykkäsi yhtäkkiä piippaa kertoakseen, että joku tuntematon, mutta algoritmin mielestä todella relevantti tyyppi on tulossa samaan tapahtumaan ja että teidän kannattaisi tavata?

Keskustelukuplia ja kaikukammioita – missä on demokratian dialogi verkossa?

AmitBorade_17841847105_778599506a_z
(cc) Amit Borade @Flickr

Blogikirjoitus on rinnakkaispostaus Oikeusministeriön #suomi100-blogista.

Yhteiskunnallisen verkkokeskustelun kuplautuminen on ollut vahvasti huolenaiheena julkisessa keskustelussa. Onko teknologia, jonka piti mahdollistaa kaikkien kansalaisten osallistuminen yhteiskunnalliseen keskusteluun, sittenkin sulkenut meidät kaikukammioihin huutelemaan samanmielisten kanssa?

Kuplakeskustelun avasi Eli Pariser (2011) kirjallaan Filter Bubbles, jossa hän osoitti, kuinka eri puolueita kannattavat käyttäjät saavat hakukoneesta samalla hakusanalla aivan erilaisia tuloksia. Samaa ilmiötä on kauhisteltu muun muassa Facebookin kohdalla. Yleisradion toimittaja loi muukalaisvihamielisen feikkiprofiilin Facebookiin ja osoitti, miten muutamassa kuukaudessa käyttäjä sulkeutui vihakuplaan.

Kuplautumisen taustalla on teknologiajättien bisneslogiikka, jossa pyrkimyksenä on maksimoida käyttäjän palveluissa viettämä aika. Uutisvirta ei harjoita journalistista harkintaa, vaan oppii aiemmasta käyttäytymisestä. Facebookissa on tuhansia eri attribuutteja määrittämässä uutisvirtaamme sisältöä – mitä valtaosa käyttäjistä ei edes tiedosta. Sen sijaan he kehittävät luovasti erilaisia sosiaalisia perusteluja sisältöjen piiloutumiselle.

Kuplissa ei kuitenkaan ole kysymys ainoastaan teknologiasta. Sosiaalipsykologia on pitkään tarkastellut sosiaalisen identiteetin muodostumista ja ryhmien merkitystä. Ryhmässä mielipiteet yhtenäistyvät ja ryhmä alkaa suosia omaa ryhmäänsä toisten ryhmien kustannuksella. Lisäksi meillä on vahva taipumus tykästyä ärsykkeisiin, joille altistumme toistuvasti. Kun luemme samaa sisältöä uudelleen ja uudelleen, se alkaa tuntua normaalilta ja hyväksyttävältä.

Kuplautuminen on siis luonnollista, mutta on selvää, että viestintäteknologialla on sitä tukevia ominaisuuksia. Sosiaalinen media mahdollistaa sen, että samalla tavalla ajattelevat ihmiset voivat päätyä kaikukammioihinsa jakamaan virheellisiä väitteitä keskenään myös omaa lähituttavien piiriä laajemmalle.

Kuplasta ulos pääseminen vaatii työtä. Informaatiotulvan keskellä on mahdollista etsiä kattavasti eri mielipiteitä ja vertailla niitä. Käytännössä ihmiset eivät kuitenkaan tee niin, vaan tyytyvät ensimmäisiin tarjokkaisiin. Edelmanin luottamustutkimuksen mukaan hakukoneiden puolueettomuuteen luotetaan enemmän kuin uutismediaan.

Kuplilla pelotteluun liittyy kuitenkin riski siitä, että kaikki verkossa käytävä keskustelu latistetaan kuplissa tapahtuvaksi arvottomaksi huuteluksi, johon teknologia meidät ajaa. Verkkokeskusteluissa käydään myös asiallista poliittista keskustelua ja nostetaan esille kansalaisten huolia. Kuplat tai algoritmit eivät tee niistä vähemmän todellisia. Teknologia ei ole irrallinen yhteiskunnasta eikä mullista sitä kertaheitolla, vaikka vastuuta halutaan mielellään sälyttää teknologialle.

Algoritmeilla ja teknologialla pelottelun sijaan meidän tulisi paremmin ymmärtää niiden hybridi luonne: algoritmit ovat tasan yhtä hyviä kuin mekin. Ihmisten toimintatavat ja virhekäsitykset siirtyvät niihin ohjelmoinnin tai koneoppimisen kautta. Hakukone ja uutisvirrat suoltavat sisältöä, josta ne arvelevat etsijän pitävän aiemman verkkokäyttäytymisen perusteella. Teknologia tuottaa kaikukammioita, koska ihmiset ovat sosiaalisessa toiminnassa mieluiten oman viiteryhmänsä kanssa. Tekoälybotti oppii päivässä rasistiseksi vihapuhujaksi muita Twitter-käyttäjiä seuraamalla. Työnhakualgoritmi syrjii tummaihoisia, koska se oppii käyttäytymismallin aiemmasta aineistosta.

Kupla- ja algoritmikauhistelun sijasta tarvitsemme paitsi sosiaalipsykologista ymmärrystä omasta toiminnastamme, myös algoritmilukutaitoa: ymmärrystä siitä, miten julkisuus rakentuu sosiaalis-teknologisena järjestelmänä, ja miten voimme itse siihen vaikuttaa. Kriittisyys sisältöjä ja lähteitä kohtaan on tärkeää. Tieto kannattaa aina varmistaa monesta eri lähteestä, eikä hakukonekaan ole puolueeton. Omia ennakkoluulojaan voi haastaa etsiytymällä tarkoituksella toisen sosiaalisen ryhmän keskusteluihin. Siihen teknologia tarjoaa parempia mahdollisuuksia kuin paperimedia.

_________________________________________________

Salla-Maaria Laaksonen (VTT) on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella. Laaksonen on tutkinut muun muassa yritysmainetta, digitaalista vaalijulkisuutta ja organisoitumista verkossa.

Lue lisää:
•    Tristan Harris: How a handful of tech companies control billions of minds every day  
•    TechCrunch: Ultimate Guide to the News Feed
•    Edelman 2017 Trust Barometer

Miten some-aineistoja sopii analysoida?

15422638442_cb6aeb137e_z
(cc) Janet McKnight, Flickr

Blogikirjoitus on rinnakkaispostaus Etiikka.fi-sivustolta ja sosiaalisen median tutkimusetiikkaa käsittelevää kirjoitussarjaa. Digitutkimuksen etiikan pohdinta jatkuu Rajapintapäivillä 2.11.!
– –

Yhä useampi yhteiskuntatieteellinen tutkija työskentelee sosiaalisesta mediasta kerättyjen aineistojen parissa – olivat ne sitten perinteisiä, pienempiä otoksia tai isompia big data -aineistoja. Verkkoaineistojen kanssa työskentely on kuitenkin tutkimusta siinä missä muukin tutkimus, ja eettiset ohjenuorat ovat työssä kullanarvoinen apu.

Sosiaalisen median aineistojen analyysin erityispiirre on se, että aineistoihin lähes väistämättä liittyy henkilötietoja. Monissa sosiaalisen median palveluissa profiili kytkeytyy suoraan oikeaan nimeen, mutta joidenkin tulkintojen mukaan esimerkiksi pelkkä Twitterin käyttäjänimi riittää yksilöimään käyttäjän henkilön. Tutkijan täytyy olla tietoinen sekä henkilötietojen käsittelyyn liittyvästä lainsäädännöstä, että ihmistutkimuksen eettisistä periaatteista. Ohjeistuksien peruspilareihin kuuluu tutkittavan koskemattomuuden säilyttäminen ja vahingoittamisen välttäminen sekä yksityisyydestä ja tietosuojasta huolehtiminen (ks. TENK).

Mikä on aineiston konteksti?

Verkkoaineistojen avulla voidaan käsitellä hyvinkin henkilökohtaisia ja arkaluontoisia teemoja, esimerkiksi uskontoon, poliittisiin mielipiteisiin tai seksuaaliseen suuntautumiseen liittyviä asioita. Tutkittavan fyysinen koskemattomuus tuskin on uhattuna, mutta leikepöydällä voi olla materiaalia, jonka analysointi tai julkistaminen voi tuottaa tutkittavalle vahinkoa esimerkiksi henkilömaineen tahriintumisen tai jopa post-traumaattisen stressin muodossa.

Association of Internet Researchersin eettiset ohjeet painottavat juuri vahingon aiheuttamiseen liittyvää harkintaa: mitä haavoittuvaisemmasta tutkittavasta tai teemasta on kysymys, sitä tarkemmin tutkijan velvollisuus on suojata tutkittaviaan:

“The greater the vulnerability of the community / author / participant, the greater the obligation of the researcher to protect the community / author / participant.” (Markham & Buchanan 2012, AoIR ethical guidelines)

Sosiaalisen median aineistojen käsittelyssä olennaisinta on kehittää tarkka ymmärrys aineiston kontekstista. On mahdotonta antaa yleispätevää vastausta esimerkiksi kysymykseen ”Aiheutuuko twiittien keräämisestä haittaa niiden lähettäjälle?”. Vastaus riippuu aina viestin lähettäjästä, aihepiiristä ja yhteiskunnallisesta kontekstista. Lopputulos riippuu myös analyysissa tehtävistä toimenpiteistä ja valinnoista.

Anonyymia analyysia

Perinteinen keino turvata tutkittavien henkilöiden oikeuksia on aineiston anonymisointi. Monessa yhteiskuntatieteellisessä tutkimuksessa on kuitenkin oleellista tietää, kuka viestin on kirjoittanut. Esimerkiksi yhteiskunnallisen vallankäytön tutkiminen ilman lähettäjätietoja on mahdotonta.

Silti on hyvä miettiä myös tutkimusprosessin aikana tarkasti, onko tutkijoiden tarpeen tietää tutkittavien identiteettejä. Omassa Digivaalit 2015 -tutkimuksessamme kerätyistä isoista aineistoista tunnistettiin nimellä ainoastaan vaaliehdokkaat. ansalaisten käyttäjänimet näkyivät vain numerosarjoina: tutkimusongelman valossa meillä ei ollut mitään tarvetta tietää, minkä niminen henkilö on kirjoittanut poliitikoille kommentteja.

Anonymisointi ei kuitenkaan ole oikotie onneen. Eri aineistoja yhdistämällä voi olla mahdollista luoda pelottavan tarkkoja henkilöprofiileja arkaluontoisistakin aiheista: klassisessa amerikkalaisessa esimerkissä terveystietoja sisältävä, anonymisoitu aineisto pystyttiin yhdistämään muutaman muuttujan avulla suoraan äänestäjärekisteriin. Tuoreessa tapauksessa pystyttiin profiiliosoitteiden avulla tunnistamaan lukuisia käyttäjiä anonyymista selainhistoriadatasta.

Lisäksi sosiaalisen median aineistojen kohdalla anonymisointi on osin kosmeettista. Julkisesta verkosta kerätty aineisto on kenen tahansa löydettävissä pelkästään tekstisisältöjen perusteella: esimerkiksi aineistolainaukseen poimitun twiitin lähettäjineen löytää Twitteristä hakukoneella. Siksi varovaisuusperiaate täytyy pitää mielessä aina tutkimustulosten raportointiin ja julkaisemiseen asti. Tutkija joutuu käytännössä punnitsemaan, näyttääkö hän lukijalle aineistonäytteitä parantaakseen argumentaatiotaan, vai pyrkiikö hän turvaamaan tutkittavien anonymiteetin.

Henkilötieto on henkilötietoa, mutta julkinen ei välttämättä julkista

Kenties paras muistisääntö sosiaalisen median aineistojen analyysin parissa työskentelevälle tutkijalle onkin ajatella ja käsitellä niitä koko ajan henkilötietoina. Yhdeksi apumitaksi kannattaa ottaa lakipykälät. Suomen laki henkilötietojen käsittelystä on – kansalaisten onneksi – sen verran tiukka, että sen pykälistä löytyy hyvää tukea myös tutkimusetiikan pohtimiseksi.

Laki pakottaa miettimään tarkemmin aineistojen tallentamista ja suojaamista. Suojaamaton pilvipalvelu on henkilötietoja sisältävälle tutkimusaineistolle yhtä väärä paikka kuin ruotsalaisten henkilötiedoille.

Laki ei kuitenkaan ota kantaa kaikkiin tutkimuksen kannalta tärkeisiin eettisiin kysymyksiin Sen näkökulmasta julkiset verkkokeskustelut ovat arkaluontoisinakin julkistettua tietoa, jonka käyttäminen aineistona on sallittua. Keväällä 2018 voimaan tuleva uusi EU:n tietosuoja-asetus näyttäisi jopa antavan entistä enemmän vapauksia henkilödatan tutkimuskäytölle.

Palaamme siis tärkeimmän opin äärelle: kontekstin ymmärtäminen ja aineiston käytöstä mahdollisesti aiheutuvien haittojen pohtiminen on tärkein osa tutkijan eettistä ammattitaitoa. Digitaalisten aineistojen käyttöön pätevät samat varotoimenpiteet kuin ei-digitaalisten aineistojen kohdalla: tutkittavien anonymisointi varsinkin lopullisessa julkaisussa, sekä tutkimuksesta tutkittaville mahdollisesti aiheutuvan harmin ja vahingon välttäminen tutkimusprosessin jokaisessa vaiheessa.

– –
Salla-Maaria Laaksonen, VTT,  on viestinnän ja teknologian tutkija Viestinnän Tutkimuskeskus CRC:ssa ja Kuluttajatutkimuskeskuksella.

CFP: Rajapintapäivät 2.-3.11.2017

Photo by Scott Robinson

Ensimmäiset Rajapintapäivät järjestetään Dipolissa, Espoon Otaniemessä 2.-3.11.2017. Torstai 2.11. on työpajapäivä, ja perjantaina 3.11. tapahtuman muoto on epäkonferenssi. Lähetä sisältöehdotuksesi ja ilmoittaudu tapahtumaan 10.10. mennessä

Perjantain 3.11. epäkonferenssi (unconference) on avoin ja osallistumiseen pohjaava tapahtuma, jonka agenda muodostuu osallistujien yhteistyössä. Kaikki teknologiaa, yhteiskuntaa ja digitaalisia menetelmiä yhdistävät tai kehittävät aiheet ovat erinomaisen tervetulleita mukaan!

Epäkonferenssi järjestetään osallistujien tapahtumaan tuoman sisällön ympärille. Pyydämmekin tapahtuman osallistujilta ehdotuksia sisällöksi mielellään 10.10. mennessä. Tapahtumassa on 30 minuutin mittaisia sessioita, joita osallistujat voivat varata etukäteen omille aiheilleen. Ajan voi käyttää perinteiseen esitykseen keskusteluineen, mutta kannustamme kokeilemaan myös muunlaisia formaatteja ja jättämään runsaasti aikaa keskustelulle.

Aiheen tulisi sopia sisällöllisesti Rajapinta ry:n teemoihin: teknologia, yhteiskunta ja digitaaliset menetelmät. Seuraavantyppiset sessiot ovat mahdollisia:

  • Tätä tutkin (esim. paperi, väitöskirjan aihe tai gradun esittely, keskeneräinen tutkimus)
  • Tätä haluaisin tutkia tai ymmärtää paremmin (esim. keskustelu uudesta tutkimusnäkökulmasta tai projekti-idean tai aineistoyhteistyön esittely)
  • How to (esim. analyysimenetelmän tai aineistonkeruutyökalun demo, mahdollisesti jonkin esimerkkitapauksen avulla)
  • Kokeellinen sessio (esim. jotain ihan muuta)

Sessioita voi järjestää myös yhdessä, ja 30 minuutin aikaikkunoita voi yhdistellä (kenties useamman ehdottajan kanssa) pidempien sisältökokonaisuuksien järjestämiseksi. Suosittelemme ottamaan rohkeasti yhteyttä jonkin aiheen ehdottajaan jos oma ideasi on samankaltainen olemassa olevan esityksen kanssa. Tapahtuman järjestäjät voivat tarpeen vaatiessa ehdottaa esityksen siirtämistä ajankohtien ja huoneiden välillä.

Ehdota omaa aihettasi lisäämällä se Rajapintapäivien Wiki-sivulle.

Aiheella tulisi olla otsikko ja lyhyt kuvaus sisällöstä. Aiheita voi lisätä kunnes tapahtuman kalenteri on täynnä. Tilavarausten vahvistamisen vuoksi voimme taata 10.10. mennessä ehdotetuille ja kalenteriin mahtuneille esityksille esitysajan. Mikäli kalenterissa on jäljellä tilaa, voit ilmoittaa esityksestä myöhemminkin, vasta vaikkapa paikan päällä.

Esitysten kieli on vapaa.

Torstaina 2.11. järjestämme kaksi työpajaa aiheista, jotka kumpuavat Rajapinta ry:n tavoitteesta kehittää teknologian ja yhteiskunnan tutkimuksen toimintaedellytyksiä Suomessa.

Tutkimusetiikkatyöpajan tavoitteena on luonnostella tutkimuseettiset ohjeet Internet-tutkimukselle Suomessa. Kansainvälisesti on olemassa erilaisia ohjeita, joita tässä työssä voidaan soveltaa Suomen kontekstiin.
Laskennallisen datan infrastruktuurit -työpajan tavoitteena on keskustella jaetuista, yhteisistä tai keskitetyistä ratkaisuista yhteiskuntatieteellisten digitaalisten “big data” -aineistojen (esim. media- tai sosiaalisen median aineistot, julkiset avoimen datan aineistot, päätöksentekoaineistot, yms.) keräämiseen, säilyttämiseen ja uudelleenkäyttämiseen Suomessa tutkimustarkoituksiin. Työpajan alussa käydään läpi tällä hetkellä käytössä olevia datan keräämisen työkaluja ja ratkaisuja.

Työpajojen tarkoituksena saada aikaa konkreettista yhteistä toimintaa työpajan aiheen ympärille. Osallistujilta ei vaadita aiempaa aiheeseen tutustumista.

Ilmoittautuminen

Ilmoittaudu mukaan verkkolomakkeella 10.10. mennessä.

Rajapintapäiville voi osallistua myös ilman omaa sisältöehdotusta. Tilaisuus on maksuton.

Rajapinta ry on vuonna 2017 perustettu teknologian, yhteiskunnan ja yhteiskuntatieteellisen tutkimuksen kohtaamispaikka. Yhdistyksen tavoitteena on edistää yhteiskuntatieteellistä teknologian tutkimusta sekä digitaalisten ja laskennallisen menetelmien käyttöä yhteiskuntatieteissä. Rajapintapäivien järjestämistä ovat tukeneet Koneen Säätiö sekä Tietotekniikan tutkimuslaitos HIIT.

Rajapinnan uutiskirje syksy 2017 // Rajapinta Newsletter autumn 2017

/English version below/

Rajapinta ry on vuonna 2017 perustettu teknologian, yhteiskunnan ja yhteiskuntatieteellisen tutkimuksen kohtaamispaikka. Yhdistyksen tavoitteena on edistää yhteiskuntatieteellistä teknologian tutkimusta sekä digitaalisten ja laskennallisen menetelmien käyttöä yhteiskuntatieteissä.

Toimintamme on avointa kaikille opiskelijoille, tutkijoille ja tutkimuksen ystäville! Syksyllä 2017 yhdistys järjestää muun muassa säännöllisiä kuukausitapaamisia, Rajapintapäivät-epäkonferenssin sekä palkitsee ansioituneen opinnäytetyön. Lisätietoja alla .

Meetupit

Järjestämme kuukausittain tapaamisia, joissa kuuntelemme puheenvuoroja työn alla olevista projekteista ja tutkimuksista. Tapaamiset ovat kaikille avoimia.

Syksyn meetupit järjestetään 28.9. (Tampere), 27.10. (Helsinki), 24.11. (Helsinki) aina kello 14 ja kestävät noin kaksi tuntia. Tarkempi paikka ja ohjelma julkistetaan yhdistyksen sähköpostilistalla sekä Facebookissa noin viikkoa tai kahta ennen tapaamista.

Oletko kiinnostunut puhumaan meetupissa? Esitelmät ovat tyypillisesti olleet varsin lyhyitä (noin 30 minuuttia), mutta niistä ollaan yleensä keskusteltu varsin pitkään ja hartaasti. Aiheet ovat vaihdelleet algoritmien vallasta verkko-etnografian tutkimusetiikkaan. Jos kaipaat tarkemmin tietoa, ota yhteyttä meetup /at/ rajapinta.co .

Rajapintapäivät 2.-3.11.2017

Rajapintapäivät ovat epäkonferenssi (unconference), jonka agenda muodostuu epäformaalisti tapahtuman osallistujien yhteistössä. Ensimmäiset Rajapintapäivät järjestään pääkaupunkiseudulla 2. – 3.11. Päivien tarkempi aikataulu ja esityskutsu julkaistaan alkusyksystä. Kaikki teknologiaa, yhteiskuntaa ja digitaalisia menetelmiä kehittävät aiheet ovat erinomaisen tervetulleita mukaan!

Opinnäytetyöpalkinto

Rajapinta ry palkitsee erinomaisia pro gradu tai diplomitöitä, joiden aihepiirit ovat Rajapinnan tavoitteiden mukaisia:

yhteiskuntatieteellisesti pohjautuneita töitä teknologiasta tai
teknologiaa hyödyntäviä yhteiskuntatieteellisiä tutkimuksia.

Palkinto voidaan myöntää opinnäytetyön tieteenalasta riippumatta kunhan se on tehty suomalaiseen korkeakouluun ja se on hyväksytty aikavälillä 1.9.2016-31.8.2017.

Hakuaika päättyy 20.9.2017, lisätietoja: https://rajapinta.co/awards/

Liity jäseneksi

Perustietoa yhdistyksestä sekä yhdistyksen jäseneksi voi liittyä verkossa. Jäsenyys on toistaiseksi maksutonta.

Kerromme toiminnastamme täällä blogissa, Facebookissa sekä sähköpostilistalla: lähetä viesti “subscribe internet-research” osoitteeseen majordomo at helsinki.fi .

—-

Rajapinta ry is an association that focuses in the study of digital society and application of digital methods to social research.

Our activities are open to students, researchers, and anyone else interested on the topic. In fall 2017, the association organizes meetups, the first annual unconference and awards excellent Masters’ theses. More details below.

Meetups

We have already for a year organized meetups where short presentations on recent activities are discussed. The events are – like all our activities – open for anybody interested.

This fall, meetups are held 28.9. (Tampere), 27.10. (Helsinki), 24.11. (Helsinki) at 2 pm and will last for about two hours. We will advertise the topics about one week in advance in Facebook & our email lists.

Would you like to present in our meetup? The presentations are usually short (max 30 min), followed up by an intensive discussion. Contact us at meetup@rajapinta.co for more details.

Annual Unconference 2.-3.11.2017

We organize the first annual unconference in capital city area 2.-3.11. The aim of unconferences is that the agenda is build bottom-up, upon the wishes of the participants. More details will be delivered in our email list during the fall.

Thesis award

We will award two excellent Master’s thesis focused on the interests of the association. The award can be granted to a Master’s thesis evaluated in any Finnish university and finished 1.9.2016-31.8.2017.

The deadline for applications is 20.9.2017, https://rajapinta.co/awards/

Become a member

If you want to join as a member, check out https://rajapinta.co/association/ . This year, the membership is free.

We communicate about our activities in Facebook and on our email list. You can join the list by sending message “subscribe internet-research” to address majordomo at helsinki.fi .