Sosiaalisen median aineistojen kerääminen on viime vuosina vaikeutunut merkittävästi. Aiemmin sosiaalisen median alustat tarjosivat pääsyn tietoihinsa automaattisten ohjelmointirajapintojen (API) avulla. Rajapintojen kautta aineiston sai käyttöönsä suoraan koneluettavassa muodossa. Tätä nykyä monet alustat ovat rajoittaneet API-rajapintojen kautta saatavien tietojen laajuutta, ottaneet käyttöön suuria maksuja tai sulkeneet rajapinnat kokonaan. Esimerkiksi laajasti tutkimuksessa käytetty X/Twitter sulki akateemisen API-rajapintansa keväällä 2023 ja lätkäisi korkeat hintalaput twiittiaineiston keräämiseen tavallisen rajapinnan kautta. Myös Reddit sulki avoimen rajapintansa kesällä 2023. Meta rajoitti API-yhteyttä dataansa jo Cambridge Analytica -skandaalin jälkeen vuonna 2018.
Sosiaalisen median tutkijat ovat kutsuneet kehitystä dramaattisesti API:n jälkeiseksi aikakaudeksi (post-api era [1,2,3,4]). Sen konkreettisin vaikutus on, että tutkijoiden on kehitettävä uusia, luovempia keinoja aineistojen hankkimiseen varsinkin silloin, kun aineistoja halutaan käsitellä koneellisesti.
EU:n uuden digitaalipalvelulain pitäisi pakottaa suuret alustat sallimaan akateemisten tutkijoiden pääsy dataan, on vielä epäselvää, miten pääsy otetaan käyttöön ja miten laaja se on. Tällä välin monet tutkijat ovat päättäneet kehittää vaihtoehtoisia tiedonkeruumenetelmiä, lähinnä erilaisia verkon raamiseen liittyviä työkaluja, jotka on suunniteltu erityisesti tiettyjä sosiaalisen median alustoja varten.
Presidentinvaalit 2024 koeponnistuksena
Pyöritämme paraikaa lyhyttä POST-API-hanketta1, jonka tarkoituksena on kartoittaa olemassa olevia työkaluja ja rakentaa uusia työkaluja suomenkielisen sosiaalisen median datan keräämiseen. Käytämme esimerkkitapauksena vuoden 2024 presidentinvaaleja, joista keräämme parhaillaan aineistoja. Hankkeen verkostoon kuuluu myös tutkijoita muista korkeakouluista ja Rajapinta-yhdistyksen piiristä.
Vaalin ensimmäisen kierroksen jälkeen meillä on tallennettuna mittava otos ehdokkaiden virallisten tilien viestejä neljästä eri palvelusta, sekä jonkin verran yleistä vaalikeskustelua muista palveluista. Yleiskuvaus keräyksestä ja työkaluista on taulukossa alla.

Klikkaa tästä jos haluat lukea lisätietoja aineistojen keruusta
- Suurten kansainvälisten alustojen osalta olemme käyttäneet erilaisia muualla kehitettyjä palveluita. Instagramia on kerätty kolmella eri työkalulla: Crowdtanglella, joka on Metan virallinen pääsy dataan tutkijoille, Instaloader-nimisellä python-scriptillä, sekä AutoFetcher-nimisellä Google Sheets -integraatiolla. Keräystä on tehtävä säännöllisesti: esimerkiksi vuorokaudessa katoavien tarinoiden (storyjen) kerääminen on tehtävä päivittäin.
- X:n ja TikTokin sisältöjä on kerätty Zeeschuimer-nimisellä selainlisäosalla, joka kerää aineistoa samalla kun käyttäjä selaa verkkosisältöjä. Keräys on keskittynyt myös yleiseen vaalikeskusteluun erityisesti X:ssä.Zeeschuimer toimii hienosti esimerkiksi etnografisen otteen rinnalla, mutta samalla aineiston keruu on väistämättä riippuvainen selaimen käyttäjän tekemisestä ja kenties myös selailuhistoriasta — palvelut saattavat näyttää eri käyttäjille erilaista sisältöä varsinkin uutisvirtanäkymissä. Pyrimme välttämään algoritmien vaikutusta tekemällä keräystä erillisellä tutkijatilillä.
- Facebook-dataa olemme keränneet paitsi Metan tarjoamalla Crowdtangle-työkalulla, myös Facepager-sovelluksella, joka on avoimesti ladattavissa verkosta. Sovelluksen kehittäjät hakevat säännöllisesti Metalta luvat rajapinnan käyttöön, ja käyttäjät kirjautuvat sovelluksen kautta rajapintaan omalla käyttäjätilillään. Presidentinvaalien datan keräyshetkellä olemme voineet kerätä sekä ehdokkaiden julkaisuja että niihin tulleita kommentteja ja reaktioita. Sovellus kuitenkin sallii keräyksen vain julkisilta sivuilta, eli esimerkiksi ehdokkaat, joilla ei ole julkista poliitikko-sivua, kuten Jussi Halla-aho eivät ole mukana tällä sovelluksella kerätyssä aineistossa.
- YouTube-videoista on kerätty videoiden metadatat YouTube DataTools -työkalulla. Aineisto ei sisällä varsinaisia videotiedostoja. Hakuparametreina on käytety ehdokkaiden nimiä ja lajittelua relevanssin mukaan, eli tuloksena on 500 ensimmäistä hakuehdotusta vastauksena ehdokkaan koko nimeen.
- Uutisten alle jätettyjen kommenttien keräystä varten on rakennettu erillisiä Python-koodeja, jotka poimivat kommentit verkkosivustojen sisäisiä, dokumentoimattomia rajapintoja hyödyntäen.
Selviämmekö ilman apeja?
Nykytilanteessa emme siis ehkä ole riippuvaisia alustayritysten api-rajapinnoista, mutta olemme usein riippuvaisia jonkun kehittämistä työkaluista. Tällaisten työkalujen ylläpitäminen tarvitsee työvoimaa: alustojen sivustojen rakenne tai sisäiset rajapinnat muuttuvat, ja dokumentaatio muutoksista on vähäistä ellei olematonta. Siksi toimivien työkalujen ylläpitäminen on teknistä salapoliisityötä. Tällä hetkellä kehitystyö on globaalistikin melko lailla yksittäisten tutkijoiden harteilla.
Aineiston keruu tapahtuu myös jatkuvalla harmaalla vyöhykkeellä. Monet käyttämistämme työkaluista eivät ole alustojen omien käyttösääntöjen mukaisia. Niiden käyttö asettaa myös tutkijan oman tilin tulilinjalle. Presidentinvaaliaineistoa kerätessä erityisesti Metan palveluissa on joutunut useamman kerran vastaamaan kyselyyn tilin epäilyttävästä käytöstä. Alustat eivät aineiston keräämistä siis arvosta, mutta poliittisen kampanjointiviestinnän sisällöt ovat yhteiskunnallisesti niin merkittäviä sisältöjä, että niiden tallentaminen ja tutkiminen on yhteiskunnallisesti tärkeää.
Suomen kontekstissa olisi tärkeää pystyä tutkimaan suomalaista sosiaalista mediaa, mikä tarkoittaa myös pienempiä ja lokaalimpia alustoja. Eri sosiaalisen median alustoilla on erilaisia tarkoituksia yhteiskunnallisissa prosesseissa. Vaikka eliitti tukeutuu usein sosiaalisen median alustojen jättiläisiin (Facebook, X/Twitter), monet saavat tietoa politiikasta alustoilta, joita käytetään pääasiassa viihdetarkoituksiin, kuten esimerkiksi viime vuonna poliittisen viestinnän alustoiksi laajemmin omaksutut Instagram ja TikTok. Roolinsa on myös tietyille aiheille ja yhteisöille omistetuilla keskustelufoorumeilla. Ne voivat toimia kansalaiskeskustelun areenoina, mutta myös poliittisen kommentoinnin alustoilla tai jopa tilana uusien poliittisten liikkeiden rakentamiselle—ajatellaan vaikka Hommafoorumin historiallista merkitystä perussuomalaiselle puolueelle. Näiden keskustelujen keräämiseen tarvitaan nimenomaan Suomessa kehitettyjä työkaluja, joita tehdään parhaillaan muun muassa DARIAH-FI -verkostossa.
– –
Tekstin ideointiin ja kirjoittamiseen ovat osallistuneet myös muut verkostossa olevat henkilöt Rajapinnan Slack-alustalla.
Hanketta “POST-API: How to collect social media data without API access – case Finnish presidential election 2024” rahoittaa Helsinki Institute for Social Sciences and Humanities HSSH. Hankkeen verkostoon kuuluu myös tutkijoita muista korkeakouluista, kuten Tampereen ja Vaasan yliopistoista, Aalto-yliopistosta ja Seinäjoen ammattikorkeakoulusta, sekä Rajapinta-yhdistyksen piiristä. Hankkeen opit tullaan päivittämään Toolkit for Digital Methods -wikiin. Kerätty data käsitellään ja tallennetaan Kielipankkiin tulevaa tutkimuskäyttöä varten mahdollisimman avoimesti.
[1] Freelon, D. (2018). Computational research in the post-API age. Political Communication, 35(4), 665-668.
[2] Bruns, A. (2019). After the ‘APIcalypse’: social media platforms and their fight against critical scholarly research. Information Communication and Society, 22(11), 1544–1566. https://doi.org/10.1080/1369118X.2019.1637447
[3] Perriam, J., Birkbak, A., & Freeman, A. (2020). Digital methods in a post-API environment. International Journal of Social Research Methodology, 23(3), 277–290. https://doi.org/10.1080/13645579.2019.1682840
[4] Tromble, R. (2021). Where Have All the Data Gone? A Critical Reflection on Academic Digital Research in the Post-API Age. Social Media + Society, 7(1), 205630512198892. https://doi.org/10.1177/2056305121988929

