Sosiaalisen median tutkimusta on luonnehtinut päällekkäisyys: kiinnostaviin tapahtumiin tai toimijoihin liittyviä aineistoja on kerätty samanaikaisesti useiden eri tutkijoiden toimesta samoilta alustoilta. Erityisesti tämä on korostunut poliittisen viestinnän tutkimuksessa ja vaalien ympärillä. Voisiko julkisten aineistojen keräämisen ympärille syntyä avoimuuden ja jakamisen kulttuuri?
Aineistojen jakamista ja yhdessä keräämistä on estänyt ennen kaikkea alustojen linjaukset ja toisaalta sosiaalisen median aineistojen ympärillä leijuva lakitekninen ja tutkimuseettinen hähmäisyys. Monet sosiaalisen median alustat ovat ehdoissaan kieltäneet aineistojen jakamisen tai sallineet sen vain hyvin rajatussa muodossa. Sosiaalisen median aineisto on myös aina henkilödataa, minkä vuoksi sen jakaminen vaatii tietosuojaan ja tutkimusetiikkaa liittyviä valmisteluja. Jos aineistoa koskevassa tietosuojailmoituksessa on mainittu tietojen käsittelijänä vain yksi yliopisto tai tutkimusryhmä, aineiston siirtäminen muille ei ole suoraviivaista.
Samaan aikaan on totta, että aineistoja on myös jaettu paljon pöydän ali näistä kysymyksistä välittämättä. Kieltämättä tuntuu hassulta, ettei julkisesti saatavilla olevaa ja yhteiskunnallisten, julkisten toimijoiden viesteistä koostuvaa aineistoa saisi jakaa toiselle tutkijalle – siellähän se on avoimesti verkossa.
Presidentinvaalit pilottina
POST-API -hankkeesamme keräsimme Suomen vuoden 2024 presidentinvaaleihin liittyviä sosiaalisen median viestejä enimmäkseen aineiston haravointia (scraping) ja palveluiden sisäisiä rajapintoja hyödyntävien työkalujen avulla. Kaikki kerätty materiaali on ollut palveluissa avoimesti saatavilla. Samalla projektin yksi tavoite oli rakentaa pohjaa prosessille, jolla sosiaalisen median aineistoja saataisiin järkevästi ja kunniallisesti jaettua tutkimuskäyttöön, jossa voidaan ylittää hanke- ja instituutiorajat.
Tietääksemme nyt julki oleva aineisto onkin ensimmäinen Euroopan Unionin tekijänoikeusdirektiivin tiedonlouhinta-artiklan (13b §, art 3 ja 4) perusteella kerätty ja tutkimuskäyttöön julkaistu sosiaalisen median aineisto. Siksi prosessia on työstetty yhdessä Helsingin yliopiston lakiasiantuntijoiden, Kielipankin ja mukana olleiden tutkijoiden voimin. Tiedonlouhintapykälän mukaan louhimista varten tehtyjen teoskappaleiden säilyttäminen on sallittua tieteellistä tutkimusta ja tutkimustulosten todentamista varten ”edellyttäen, että
teoksen kappaleet ovat vain siihen oikeutettujen saatavilla”. Tämän vuoksi aineistoon ei ole täysin avointa pääsyä, mutta luvan voi hakea tieteellistä tutkimusta varten. Edellytyksenä on siis asianmukainen tutkimussuunnitelma.
Koska tällaista aineistoa avattiin nyt ensimmäistä kertaa, aineiston saaminen palveluun vei melkein kaksi vuotta, mikä on tietysti pitkä aika aineistoa odottavalle tutkijalle. Toivottavasti kuitenkin jatkossa prosessi voi edetä nopeammin, kun tietä on nyt raivattu. Silti tutkimushankkeissa on syytä varata kunnolla aikaa aineistojen tekniseen läpikäyntiin ja formaattien yhdenmukaistamiseen. Eri palveluista tulevat aineistot ovat muodoltaan samankaltaisia, mutta eivät uitenkaan täysin vastaavia, mikä aiheuttaa päänvaivaa. Lisäksi sosiaalisen median aineistoille on varsin tyypillistä, että niiden rakenne muuttuu, kun palvelut muuttavat järjestelmiään. Siksi prosessia on vaikea automatisoida.
Pilottina vaaleihin liittyvä, julkinen poliittinen viestintä on helppo aihe. Jotakin toista teemaa käsittelevät, enemmän yksityisen elämän piirissä olevat sosiaalisen median aineistot eivät välttämättä sovellu avoimeksi aineistoksi yhtä hyvin. Esimerkiksi terveyskysymyksiä tai väkivaltaa koskevat aiheet tai lasten ja nuorten viestintä ylipäätään ovat tutkimusaiheita, jotka vaativat muutenkin laajempaa eettistä harkintaa. Sama pohdinta on syytä ulottaa myös aineistojen avaamiseen ja jakamiseen.
Mitä aineistossa on ja miten siihen pääsee käsiksi?
Lempinimellä somepressa 24 kulkeva aineisto kerättiin Helsingin yliopiston Kuluttajatutkimuskeskuksen johdolla HSSH:n (Helsinki Institute for Social Science and Humanities) rahoittamassa Catalyst Grant -hankkeessa “POST-API: How to collect social media data without API access – case Finnish presidential election 2024”. Aineistossa on kaikki yhdeksän presidenttiehdokkaan julkisilla tileillään julkaisemat viestit vaalikampanjoinnin ajalta tammi-helmikuussa 2024 kuudelta eri alustalta (myös audiovisuaalinen sisältö Instagramista ja TikTokista) sekä yleistä vaalikeskustelua Twitter/X:stä ja uutiskommenteista. Katso tarkempi kuvaus aineistojen keruumenetelmistä täältä.
Kielipankki on kieliaineistoja, korpuksia, käyttävien tutkijoiden palvelukokonaisuus. Siellä on laaja valikoima teksti- ja puheaineistoja, joista osa on käytettävissä avoimesti, osa yliopiston käyttäjätunnuksella tai erillisellä lupaprosessilla. Palvelulupauksemme on, että se on nopeampi ja yksinkertaisempi kuin sosiaalisen median alustojen omat prosessit!
Suomen presidentinvaalit 2024 sosiaalisessa mediassa, lähdemateriaali on saatavilla Kielipankin latauspalvelussa. Aineisto on saatavilla luvanvaraisesti vain rajoitettuun tutkimuskäyttöön (ks. lisenssi).
Laaksonen, S.-M., Skënderi, E., Nelimarkka, M., Piitulainen, J., Rikkonen, L., Toroskainen, S., & Pöyry, E. (2026). Suomen presidentinvaalit 2024 sosiaalisessa mediassa, lähdemateriaali [aineisto]. Kielipankki. https://urn.fi/urn:nbn:fi:lb-2024030501

