How to study Big Data epistemology in the social sciences?

In the recent years there has been discussion about whether the rise of Big Data—understood as a collection of methods and practices involved in the analysis of voluminous and rapidly accumulating data with varying structure—calls for a new kind of epistemological understanding of science (e.g. Kitchin 2014; Frické 2015; Floridi 2012; Hey et al. 2009). For instance, Rob Kitchin proclaims that

There is little doubt that the development of Big Data and new data analytics offers the possibility of reframing the epistemology of science, social science and humanities, and such a reframing is already actively taking place across disciplines. (Kitchin 2014, 10.)

This epistemological reframing is due to the idea that Big Data enable a novel form of inquiry called data-driven science, which seeks to generate scientific hypotheses by discovering patterns in vast amounts of data (Kelling et al. 2009, 613-614; Kitchin 2014, 6-7). Data-driven science contrasts with the more traditional ‘knowledge-driven science’, where the hypotheses to be examined are derived from theory rather than data (Kelling et al. 2009, 613). Thus, the argument is that Big Data can reorient the roles that data and theory play in research, and that therefore we should rethink our conception of how scientific knowledge production works.

How, then, should one go about studying Big Data epistemology? How to assess the claim that Big Data enable a novel form of scientific inquiry, which cannot be analysed using traditional epistemological concepts?

In the context of biology, Sabina Leonelli has argued convincingly that in order to critically evaluate the epistemological novelty of Big Data, ‘one needs to analyse the ways in which data are actually disseminated and used to generate knowledge’ (Leonelli 2014, 2). This is quite plausibly so in the context of the social sciences, too. As Kitchin and McArdle (2016) argue, there is no single notion of ‘Big Data’ that would apply across all contexts, and accordingly the ways in which knowledge is generated are likely to vary as well.

Thus it seems sensible that a study of Big Data epistemology in the social sciences should begin with an analysis of the different ways in which Big Data are used in different social scientific contexts. With this purpose in mind, I have collected a number of special issues, sections, and symposia on Big Data that have been published in social scientific journals in the past few years (2013-2016). A review of the different conceptions and uses of Big Data in this collection should give some basis for an assessment of the extent to which the epistemology of the social sciences needs to be reframed.

Below is a list of the collected issues along with short descriptions of their contents.

Special issues, sections, and symposia on Big Data

Political Behavior and Big Data
International Journal of Sociology 46(1), 2016.

The articles in this special issue come from political sociology, cross-national methodology, and computer science. The purpose of the issue is to identify and discuss a set of pressing methodological problems pertaining to the use of Big Data methods in these fields, including the following:

  1. Can Big Data tools be used to describe and explain political behaviour?
  2. How to create a large numerical data set from textual data?
  3. How to deal with the problem of selection in constructing event data with Big Data methods?
  4. How to harmonize large volumes of survey data from distinct sources into one integrated data set?

Big Data in Psychology
Psychological Methods 21(4), 2016.

This special issue provides 10 articles that discuss the benefits of engaging psychological research with Big Data and give instructions for the use of various common research tools. The first four articles offer guides to using Big Data methods and tools in psychological research, giving advice on the use of various APIs and web scraping tools to collect data, as well as on managing and analysing large datasets. The remaining six articles then demonstrate the use of Big Data in psychology, examining the spread of negative emotion on college campuses, models of human declarative memory, methods of theory-guided exploration of empirical data, the uses of statistical learning theory in psychology, and methods for detecting the genetic contributions to cognitive and behavioural phenomena.

Big Data and Media Management
International Journal on Media Management 18(1), 2016.

The stated goal of this special issue is to showcase media management research that employs Big Data, or analyses its use in media management (see the issue introduction, 1-2). The issue includes four research articles, which use Big Data to derive metrics for audience ratings, identify influential factors in terms of news sharing, discuss television use measurement, and examine consumers’ willingness to share personal data.

Special Issue on Big Data
Journal of Business & Economic Statistics 34(4), 2016.

This special issue includes six articles on Big Data finance and seven articles on macroeconomics, high-dimensional econometrics, high-dimensional time series and spatial data. The articles discuss a variety of issues in these fields, developing theory and methods for addressing them as well as investigating applications. (See the issue introduction, 2-3.)

Transformational Issues of Big Data and Analytics in Networked Business
MIS Quarterly 40(4), 2016.

This special issue consists of eleven research articles, which develop a variety of Big Data analysis methods relevant for information systems and business. Included are a data-driven tree based method for assessing interventions in the presence of selection bias; network methods combining sentiment and textual analysis for developing brand advertising; methods for using fine-grained payment data to improve targeted marketing; a study of the causal effectiveness of display advertising; a model to improve resource allocation decisions; a crowd-based method for selecting parts of data as model input; methods for dealing with the scalability and privacy of data sharing; a utility-theory based structural model for mobile app analytics; a predictive modeling method for business process event data; a topic modelling method for measuring the business proximity between firms; and a method to address various wicked problems of societal scale in information systems. (See the issue introduction, 815-817.)

Toward Computational Social Science: Big Data in Digital Environments
The ANNALS of the American Academy of Political and Social Science 659(1), 2015.

The articles in this special issue on Big Data and computational social science come from diverse disciplines, including psychology, epidemiology, political science, and communication studies. The twenty research articles included in the issue are divided into five subsections, titled ‘Perspectives on Computational Social Science’, ‘Computer Coding of Content and Sentiment’, ‘Mapping Online Clusters and Networks’, ‘Examining Social Media Influence’, and ‘Innovations in Computational Social Science’. Each of these sections contains four articles with discussions of the section theme or empirical studies using Big Data.

Big Data, Causal Inference, and Formal Theory: Contradictory Trends in Political Science?
Symposium in Political Science & Politics 48(1), 2015.

The purpose of this symposium is to discuss whether formal theorising, causal inference-making such as experimentation, and the use of Big Data hinder or benefit from each other in political science. The seven articles included in the symposium agree that while there are limits to the extent to which Big Data can help solve problems in theoretical development of causal inference, the three should not be seen as contradictory to each other. In many cases Big Data can supplement the other two.

Section on Big Data
Sociological Methodology 45(1), 2015.

This section focusing on Big Data includes two articles. The first of these develops methods for analysing large-scale administrative datasets to yield econometric measures for urban studies. The second argues for a supervised learning method for analysing unstructured text content that combines machine-based and human-centric approaches.

Big Data, Big Questions
Special section in International Journal of Communication 8, 2014.

This special section includes eight articles which discuss political, ethical, and epistemological issues pertaining to Big Data. The issues discussed in the articles include power asymmetries related to data access; meanings attached to the term ‘Big Data’ in different discourses; the implications for democratic media of the use of Big Data in market advertising; problems pertaining to simplifications and standardizations in large-scale data sets; transparency in Twitter data collection and production; the uses and limitations of spatial Big Data; understanding the practices of the Quantified Self Movement; and the relationship between theory and Big Data.

Big Data in Communication Research
Journal of Communication 64(2), 2014.

This special issue includes eight research articles that use Big Data to address various questions in communication research. The questions addressed include agenda formation in politics; organizational forms of peer production projects; temporal dynamics and content of Twitter messages during elections; the relationship between television broadcasts and online discussion and participation; the acceptance of anti-smoking advertisements; the measurement of political homophily on Twitter; and cross-cultural variation in the use of emoticons.

Symposium on Big Data
Journal of Economic Perspectives 28(2), 2014.

This symposium contains four articles that focus on discussing problems of Big Data analysis in economics and introducing machine learning techniques suitable for addressing them, applications of data mining to analysing high-dimensional data, the uses of data gathered in political campaigns, and privacy issues pertaining to the use of Big Data in economics.

Policy by Numbers: How Big Data is Transforming Security, Governance, and Development
SAIS Review of International Affairs 34(1), 2014.

This issue features essays characterising the role of data in international affairs. The themes discussed range from the effects of selection bias in data collection on policymaking and the potential to use Big Data to estimate slavery, to issues pertaining to the openness of data and data custodianship.

Big Data/Ethnography or Big Data Ethnography
Session in Ethnographic Praxis in Industry Conference 2013.

The EPIC 2013 session on Big Data examines the relationship between Big Data and ethnographic research. The five articles in this session discuss the value of ‘small’ personal data in business, develop tools for analysing qualitative Big Data, argue that Big Data and ethnography should both be viewed as interpretative approaches to analysing human behaviour, examine the discourses and practices surrounding data among technology designers and the health and wellness community, and investigate the use of mobile money using mixed ethnographic methods.

Big Data in Political Science
Political Analysis virtual issue 5, 2013.

This virtual issue is a collection of articles published in Political Analysis between 2005-2013 that showcase the uses of Big Data and methods for analysing it in political science. The uses demonstrated by the articles include the validation of survey reports of voting, validation of online experiments, development of techniques for identifying word usage differences between groups of people, spatial sampling methods based on GPS data, and the measurement of legal significance and doctrinal development in judicial politics. The methods introduced include various Bayesian approaches to Big Data analysis and a general method for statistical inference with network data.


Floridi, L. (2012): Big Data and Their Epistemological Challenge. Philosophy & Technology 25(4).

Frické, M. (2015): Big Data and its epistemology. Journal of the Association for Information Science and Technology 66(4).

Hey, T., Tansley, S., and Tolle, K. (Eds.) (2009): The fourth paradigm: Data-intensive scientific discovery. Redmond,WA: Microsoft Research.

Kelling, S., Hochachka, W., Fink, D., Riedewald, M., Caruana, R., Ballard, G., and Hooker, G. (2009): Data-intensive Science: A New Paradigm for Biodiversity Studies. BioScience 59(7).

Kitchin, R. (2014): Big Data, new epistemologies and paradigm shifts. Big Data & Society 1(1).

Kitchin, R. and McArdle, G. (2016): What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets. Big Data & Society 3(1).

Leonelli, S. (2014): What difference does quantity make? On the epistemology of Big Data in biology. Big Data & Society 1(1).

Botteja, algoritmeja ja kokemuksen väärentämistä


Tällä viikolla Etelä-Saimaa julkaisi Juho Maijalan kirjoittaman jutun, jossa kerrottiin kansanedustaja Jani Mäkelän (ps.) mielipidekirjoituksiin kohdistuneesta bottiklikkausliikenteestä. Klikkiliikenteen seurauksena kyseiset kirjoitukset olivat nousseet lehden luetuimpien listalla kärkeen. Tapaus on rakenteeltaan mielenkiintoinen. Joku tai jotkut tahot ovat käyttäneet botteja vaikuttaakseen algoritmiin vaikuttaakseen juttujen asemaan verkkosivulla, minkä mitä luultavimmin toivotaan vaikuttavan lukijoiden toimintaan ja ajatuksiin. Tapaus siis suorastaan huokuu nykyaikaa ja näyttää osuvasti, kuinka algoritmeja voidaan valjastaa palvelemaan tarkoitusperiä, joita niiden kehittäjät eivät ole toivoneet.

Erving Goffman puhuu teoksessaan Frame analysis (1986) kokemuksen väärentämisestä (käyttäen termiä fabrication englanniksi). Etelä-Saimaan jutussa puhutaan näkyvyyden lisääntymisestä yhtenä seurauksena manipulaatiosta; itse lisäisin joukkoon myös kokemuksen muokkaamisen. Korkea asema luetuimpien listalla viestii myös jutun asemasta suosittuna muiden ihmisten keskuudessa, eli siihen liittyy sosiaalista informaatiota. Tässä tapauksessa kokemuksen väärentäminen kohdistuu juuri tähän. Kehys, jossa informaatiota tulkitaan perustuu oletukseen, että muut ihmiset ovat omalla toiminnallaan nostaneet tietyn tekstin luetuimpien listalla kärkipaikoille. Ihmiset käyttävät usein muiden toimintaa tiedonlähteenä oman toimintansa suhteen ja se voi osaltaan vaikuttaa myös sisällön arviointiin (e.g. Salganik, Dodds, & Watts, 2006; Knobloch-Westerwick, Sharma, Hansen, & Alter, 2005). Paljon luettu artikkeli voidaan tulkita sisällöltään ja näkökulmaltaan validiksi ja suosionsa perusteella tärkeäksi. Algoritmi toimi tilanteessa niin kuin se oli rakennettu: sen kannalta jokainen klikkaus oli yhtä aito kuin mikä tahansa muu. Se mikä tälle algoritmille on relevanttia dataa on ihmisen valinta. Klikkauksen ajatellaan symboloivan kiinnostusta tai muuta mahdollisesti positiivista suhtautumista tiettyyn kirjoitukseen. Tässä tapauksessa paljastui, että jos klikkausmäärä on se, minkä ajatellaan olevan objektiivinen mittari, niin klikkaus ei itsessään aina tarkoita ihmisen klikkausta ja intentio klikkauksen takana ei aina ole selvä.

Etelä-Saimaa paljastaessaan epäilyttävän verkkoliikenteen purki, Goffmanin termejä käyttäen, kehyksen joka oli botteja käyttäen rakennettu Jani Mäkelän mielipidekirjoitusten ympärille. Koko tapaus on osuva kuvaamaan, kuinka haavoittuvainen jopa hyvin yksinkertaisten mittareiden perusteella rakennettu kokemus voi olla, miten algoritmeja on mahdollista manipuloida omien intressien edistämiseksi, ja toisaalta kuinka fabrikoituja kehyksiä on mahdollista purkaa.


Goffman, E. (1986). Frame analysis: An essay on the organization of experience. Harvard University Press.

Knobloch-Westerwick, S., Sharma, N., Hansen, D. L., & Alter, S. (2005). Impact of popularity indications on readers’ selective exposure to online news. Journal of Broadcasting & Electronic Media, 49(3), 296–313.

Salganik, M. J., Dodds, P. S., & Watts, D. J. (2006). Experimental study of inequality and unpredictability in an artificial cultural market. Science, 311(5762), 854–856.

Algoritmitutkimuksesta yleisemmin:

Gillespie, T. (2012). The relevance of algorithms. Media Technologies: Essays on Communication, Materiality, and Society, (Light 1999), 167–194.

Kitchin, R. (2016). Thinking critically about and researching algorithms. Information, Communication & Society, 1-16.

Väline on osa agendaa eduskuntavaaleissa 2015

Aiheet eri mediakanavissa. Klikkaa suuremmaksi.

Eräänä iltana ryhmä Digivaalit 2015-hankkeen tutkijoita oli kokoontunut Mattermostiin juonimaan uusinta artikkeliluonnosta vaikuttaja-indeksistä ja agendan normalisoitumisesta. Analysoidessamme ehdokkaiden vaikuttajuutta eri medioiden agendaan olimme aiemmin kirjoittaneet myös kuvailleet aiheiden esiintymistä eri viestintävälineissä. Artikkelikäsikirjoituksessa teemajakauman rooli oli ollut enemmänkin kuvaileva, mutta nyt ryhdyimme pohtimaan, saisiko siitä sittenkin nostettua havaintoja – ja tasapainotettua artikkelia, joka oli aika valtaindeksiin keskittynyt ja vähän hassun muotoinen sen takia.

Mielestäni “iltavuoro” on paras aika tälläiseen työhön. Silloin voi tuijotettaan ja pohtia melko rauhassa asioita, tällä kertaa arvioida mitä taulukossa oikeasti olikaan esillä. Yön aikana syntyneet havainnot olivat – ainakin minun mielestäni – kiinnostavia.

Taulukosta nähdään, kuinka perinteinen media on selvästi poliittiseen asiasisältöön keskittynyttä, kun taas sosiaalinen media, niin ehdokkaiden kuin kansalaisten käyttämänä, korosti kampanjointia ja mobilisointia. Tämä ei ehkä ole kovinkaan yllättävää, sillä journalistinen, toimitettu sisältö on aina erityistä. Sen sijaan yllättävää voi olla asiasisältöjen moninaisuus perinteisessä mediassa. Kun sosiaalisessa mediassa keskusteltiin vain muutamista asiasisällöistä, oli toimituksellinen sisältö paljon rikkaampaa ja moniäänisempää. Näyttäisi siis siltä, että aiheiden monipuolisuuden näkökulmasta perinteiselle medialle on paikkansa.

Toisaalta ehdokkaiden Twitter- ja Facebook-aiheissa oli eroja. Ehdokkaat käyttivät Twitteriä enemmän poliittisten asiakysymysten käsittelyyn, kun taas Facebook oli kampanjoinnin ja mobilisoinnin areena. Tulokset liittyvät läheisesti viimeaikaiseen keskusteluun sosiaalisen median alustojen välisestä eroista, ja tukevat myös Mari Tuokon gradussa tehtyjä havaintoja.

Voidaan olettaa, että viestinnän tyyliin ja aiheisiin vaikuttavat myös alustojen teknologiset ominaisuudet. Esimerkiksi Twitterissä tunnetusti on rajoitettu 140 merkin määrä sekä viesteissä että vastuksissa, kun taas Facebookissa viestit sekä vastaukset voivat olla paljon pidempiä. Lisäksi Twitter oli vielä vaalien alla suoraviivainen julkaisumekanismissaan – uusimmat viestit ylimpänä – kun taas Facebook kuratoi sisältöä algoritmisesti.

Koska molemmat palvelut ovat myös sosioteknisiä järjestelmiä, myös ihmiset vaikuttavat viestinnän käytäntöihin. Esimerkiksi yleisön kokoonpano tai ehdokkaiden oletukset yleisöjen tyypistä vaikuttavat viestintään. Suomen tapauksessa on ensinnäkin syytä muistaa, että Twitter on enemmän eliittimedia (Vainikka & Huhtamäki, 2015) kun taas Facebook on tavallisten kansalaisten areena.

Viimeisenä todettakoon, että harmiksemme (vaikuttajalaskelman kannalta) oli vain muutamia teemoja jotka esiintyivät useassa mediakanavassa: turvallisuuspolitiikka, talous, koulutus ja energiakeskustelut. Ehkäpä on niin, että julkisuuteen vaalien alla mahtuu vain muutama isompi teema, joista sekä ehdokkaat, media että kansalaiset keskustelevat.

Kokonaisuudessaan olen varsin tyytyväinen siihen, mitä kaikkea teemajakumasta saatiin nyhdettyä irti kun sitä tarpeeksi tuijotettiin. Mitä siis opimme? Ei koskaan pidä kyseenalaistaa viimisten iltojen paniikkia osana pohdintaa ja tulkintaa. Toivottavasti käsikirjoituksemme saadaan pian julkaistua, niin voimme linkata sen tänne   myöhemmin kokonaisuudessaan.

(Yhteiskirjoittanut: Matti Nelimarkka & Salla-Maaria Laaksonen)

Miksi Rajapintaa tarvitaan rasismitutkimuksessa?

Rajapintalaisista ainakin Salla, Matti, ja Jesse ovat Suomen Akatemian rahoittamassa Racisms and public communications in the hybrid media environment (HYBRA) -tutkimushankkeessa. Valtiotieteellinen tiedekunta (Helsingin yliopisto), Viestintätieteellinen tiedekunta (Tampereen yliopisto) sekä Tietoteniikan tutkimuslaitos HIIT (Tietojenkäsittelytieteen laitos, Aalto-yliopisto). Mitä Rajapinta yhteisönä voi luoda osaksi rasismitutkimusta? Pohdintaan vähän tutkimuksen suuntaviivoja.

Meditila on hybrinen sekä big

Verkkovälitteinen viestintä, Facebookissa, Twitterissä, blogeissa ja muissa verkkoyhteisöissä on nykyisin arkipäiväistä. Käyttäjälähtöinen sisältö sekoittuu osaksi perinteistä viestintää, kuten Salla kirjoitti Rajapinnassa kesäkuussa. Tiivistetysti, rasismin tutkimuksessa on välttämätöntä havainnoida myös verkkoa, ja rajapintalaisilla on siitä melko hyvin kokemusta.

Olemme aikaisemmin jo tutustuneet sosiaalisen median datan louhintaan ja sen ongelmiin sekä murskaamiseen tieteeksi. Modernissa datan keräyksessä siirrytään lähemmäksi big datan aikaa – kerätään paljon aineistoa ja laskennallisesti koitetaan repiä irti yhteiskuntatieteen kannalta tuloksia.

HYBRAssa meitä kiinnostaa kuinka rasistiset sekä antirasistiset keskustelut leviävät ja virtaavat mediasta ja yhteisöstä toiseen. Aloitamme varmaan kansallisella tarkastelulla suomalaisissa yhteisöissä, mutta puhuimme myös kansainvälisestä ulottuvuudesta. Voimmeko demonstroida kuinka Atlantin toisella puolella olevat tapahtuvat ilmenevät täällä pohjolassa, ja mikä niiden virtaus täsmällisesti onkaan.

Ensimmäinen askel onkin rakentaa datan keräysalustaa ja kerätä aineistoja. Perinteitämme kunnioittaen julkaisemme tästä ohjelmakoodista vapaan lähdekoodin lisenssillä GitHub-repositoriossa. Koodia lukemalla siis näkee vähän aikaisemmin mitä ihmettä teemme, vaikka kerrommekin myös Rajapinnassa tekemisistämme.

Mediatila on rakennettu

Sosiologit käyvät tällä hetkellä varsin villiä keskustelua algoritmien vallasta. Rajapinnassa ei ole vielä tiivistelmää tästä keskustelusta, mutta Microsoft Researchin tutkijat ylläpitävät ajantasaista listaa artikkeleista. Ehkä lyhyenä tiivistelmänä aika laajasta kirjallisuudesta: algoritmit vaikuttavat ihmisten toimintaan ja ovat siis piilossa olevia sääntöjä ja valtarakenteita (Kitchin, in press).

Onko mediatilaa rakennettu rasismin kannalta älykkäästi? Esimerkiksi Facebookin Trending sekoilu näytti, ettei algoritmitkaan aina toimi erityisen hienosti. Käykä niin, että rasistiset (sekä antirasistiset) henkilöt löytävät toisensa suosittelualgoritmien avulla? Miten eri uutiset käyttäytyvät sosiaalisessa mediassa – onko sosiaalisen huomion kannalta mielekästä kirjoittaa rasistisia (tai antirasistisia) uutisia? Mielessäni on myös ajatukseni vuodelta 2015: voimmeko testata jotain ajatuksiamme algoritmeistä, käyttöliittymistä sekä rasismista rakentamalla vuorovaikutteisia järjestelmiä.

Miksi rasismi tutkimuskohteena?

Olemme Rajapinnassa tutkineet varsin laajalla skaalalla erilaisia asioita ja rasismi saattaa vaikuttaa yllättävältä lisältä teemana yhteisöömme. Pohdiskelin vuoden vaihteessa tutkimuksen kehystämisen ongelmia – esimerkiksi vaalitutkimuksemme mielenkiinto tulosten osalta ei tule olemaan mitenkään suurta Suomen ulkopuolella. Vaalijärjestelmämme ja mediaympäristömme on hiukan outo kaikille muolle. Mahdollisesti jotkut menetelmällisemmät ajatukset, kuten valtaindeksit, etnografia osana laskennallista tutkimusta tai vuorovaikutuksen käsittellistäminen auttavat tiedettä eteenpäin, ovat jargonilla mielenkiintoisia kontribuutioita.

Rasismitutkimuksessa saamme omalle työllemme yhteiskunnallisen motiivin (se on aika tärkeää kun perjantai-iltana istuu Otaniemessä ja miettii, että viikonloppu palaa tämän parsissa sitten kuitenkin) sekä toisenlaisen yhteisön, jolle Suomi ei ehkä ole niin erikoinen lumihiutale tutkimusalueena.

Rajapinnassa tullaan julkaisemaan aktiivisesti pohdintoja ja miettimistä hankkeen aikana aihetunnistella hybra. Ei tarvitse aina odottaa varsin hidasta akateemista julkaisua.

Mikä on ’digitaalinen vaaliteltta’?

Luin Eduskuntavaalitutkimus 2015 -kirjassa kappaletamme ”Digitaalinen vaaliteltta: Twitter politiikan areenana eduskuntavaaleissa 2015”, ja päädyin pohdiskelemaan tekstin jo tultua painosta, että mikä ihme onkaan digitaalinen vaaliteltta. Varsinaisessa tekstissä avataan ajatusta vähän tarkemmin, mutta edelleen varsin epämääräisesti:

Keskustelun näkökulmasta Twitter voisi olla uudenlainen digitaalinen vaaliteltta, jossa luoda kontaktia ainakin osaan äänestäjistä. Sosiaalinen media määritellään usein mahdollisuutena viestiä ystävien sekä tuntemattomien ihmisten kanssa teknologiavälitteisesti (esim. Bechmann ja Lomborg 2013; boyd ja Ellison 2007).

Myöhemmin radiohaastattelussa Mari Marttila pohdiskelee digitaalista vaalitelttaa seuraavien kriteerien kautta:

  1. vaaleja ei voiteta vain digitaalisella vaaliteltalla
  2. digitaalisellakin vaaliteltalla ihmisen täytyy olla kiinnostunut politiikasta löytääkseen vaaliteltalle asti
  3. ehdokkaat jakoivat lähinnä digitaalisia esitteitä itsestään

Mutta onko tässä kaikki? Miksi olemme keksineet hienon kuuloisen sanan kuvaamaan poliitikkovetoista verkkovälitteistä viestintää? Pohditaanpas ilmiötä tarkemmin: mitkä ovat digitalisaation keskeisiä piirteitä ja miten ne tulisi ymmärtää vaaliteltan kautta?

Manuel Castells (2010, 406) muotoilee digitaalisten välineiden hyödyn verkostoyhteiskunnassa ajattoman ajan ja paikattoman paikan kautta. Eli lyhykäisyydessään, digitaalisessa vuorovaikutuksessa aika ja paikka menettävät merkitystään kohtaamisen osalta. Digitaalinen vaaliteltta on aina auki ja sinne pääsee lähtemättä sateiseen Suomen kevääseen.

Samaan aikaan danah boyd (2007) on pohtinut verkottuneen julkisuuden käsitettä. Hänelle verkottunut julkisuus on teknologian muodostama areena, jossa esiintyjät ja yleisö voivat kohdata. Verkottuneen julkisuuden erityisominaisuuksiksi tällöin on kuvattu pysyvyyttä, haettavututa, toistettavuutta sekä odottamattomien yleisöjen olemassaoloa. Digitaalinen vaaliteltta siis yhdistää yleisön ja esiintyjät, mutta jättää digitaalisia jalanjälkiä, joita muut voivat seurata. Lisäksi boyd nostaa esille viestintävälineiden merkityksen osana verkottuneen julkisuuden muodostumista, mihin palaan myöhemmin.

Ennen kuin pyrin muodostamaan tarkemman työmääritelmän digitaalisesta vaaliteltasta, on ehkä tarpeen miettiä perinteisen vaaliteltan ominaisuuksia. Vaikka kaikki olemme nähneet vaalitelttoja, niitä ei näköjään ole erityisemmin tutkittu: Google Scholar löytää hakusanalla ’vaaliteltta’ viisi (5) hakutulosta – joista kaksi omaan tekstiimme. Kolme jäljelle jäänyttä tekstiä eivät myöskään suoraan vastanneet kysymykseen, siitä, mikä on vaaliteltta. Aloitetaanpas pohdiskelemalla torin laidalla olevia vaalitelttoja ja niiden piirteitä:

  1. Vaaliteltta on osa laajempaa kampanjatyötä. Vaalitelttojen tarkoitus on markkinoida ehdokasta sekä puoluetta äänestäjille. Vaaliteltat tukevat esimerkiksi lehdissä tapahtuvaa mainontaa.
  2. Kampanjapaikkana vaaliteltta on julkinen. Sekä poliitikot, avustava väki että vaaliteltalla kävijät ovat kaikkien nähtävissä. Vaikka vaaliteltta mahdollistaa henkilökohtaisen kohtaamisen, se ei kuitenkaan ole yksityinen.
  3. Vaaliteltat ovat osa kaupunkikuvaa. Ne laitetaan näkyvillä oleviin ja saavutettaviin ympäristöihin. Ne toimivat ei vain kampanjoinnin välineenä, vaan merkkinä lähestyvistä vaaleista luoden vaalitunnelmaa koko kaupungissa.
  4. Vaaliteltat eivät maagisesti yhdistä ehdokasta ja äänestäjää. Äänestäjän täytyy kulkea vaaliteltta-alueella – niitä on esimerkiksi paljon vähemmän esikaupunkialueella. Äänestäjän tulee kiinnittää huomiota vaalitelttaan, joko omasta mielenkiinnosta, ilmaisen kahvin takia tai vaaliväen takia.
  5. Vaaliteltta ei pakota noudattamaan tiettyä käytäntöä tai rituaalia. Kampanjamuoto voi olla melkein mitä vain maan ja taivaan välillä, vaaliteltta antaa vain tilan käytettäväksi. Esimerkiksi jotkut ehdokkaat voivat keskittyä enemmän mainoksien jakamiseen ja toiset tervehtimään äänestäjiä.

Mitä hyötyä näistä ajatuksista oli sitten käytännössä? Ovatko ne päteviä digitaalisessa ympäristössä tai auttavatko ne meitä hahmoittamaan digitaalisia vaalitelttoja enemmän? Jäsennellään digitaalisen vaaliteltan luonnetta

  • Liittyen boydin ajatuksiin, digitaaliset osallistumisen muodot – kuten myös digitaalinen vaaliteltta – pohjautuvat alustojen tukemiin osallistumismahdollisuuksiin. Olen kirjoittanut aiemmin kansalaisjärjestöistä ja verkko-osallistumisen mahdollisuusrakenteista, joten tässä kohtaa voi sanoa tiivistetysti: tekniset järjestelmät muokkaavat sitä, mikä on mahdollista digitaalisessa kampanjoinnissa.

    Yhdysvalloissa Hillary Clinton on kerännyt tukijoukoikseen 50 ihmisen teknologiaryhmän toteuttamaan niin data-analyysiä kuin arvatenkin vuorovaikutteisia sovelluksia (esimerkiksi Trump Yourself) tukemaan omaa kampanjaansa. Suomessa puolueet yleensä tyytyvät käyttämään valmiita teknologiapalikoita, kuten Twitteriä ja Facebookkia, mutta toiminnan muodot määrää silloin alustan koodarit, eivät poliitikot. Jostain syystä näin suoraviivaista teknologia-määrää ajattelua pidetään aikamoisessa pannassa suomalaisessa yhteiskuntatieteessä, mutta nostetaan kissa pöydälle. Jos Twitter sallii vain 140 merkin mittaiset viestit, niin silloin sen kanssa pitää elää tai kiertää rajoitteita lähettämällä viesti kuvana tai useassa osassa.
  • Toisaalta, digitaalinen vaaliteltta riippuu myös yleisöstä – sosiaalisen median palveluissa yleensä kuvitellusta yleisöstä (imagined audiences, esimerkiksi Marwick & boyd, 2011). Useissa verkkopalveluissa ei ole varmaa, kuka tuotoksia oikeasti lukee – ne ovat (puoli)julkisia ja saatavilla laajoille ihmisjoukoille. Kuitenkin tuotos on kirjoitettu jollekkin ajatukselle siitä, ketkä sitä voisivat nyt päätyä lukemaan, kuka seuraa minua. Kärjistettynä esimerkkinä, Helsingin keskustassa Keskustalla keihäänkärki tuskin on maatilan tukien kehitys. Ihan vain, koska normaalia kadulla kulkevaa helsinkiläistä moiden tuskin kiinnostaa, he eivät ole kuviteltua yleisöä tälle viestille.

    Jatkaen tätä ideaa, kuten Vilma ja Airi esittelivät, teknologian käyttö on myös oman identiteetin rakentamista. Muotoillen toisin, tiettyjen teknologiavalintojen tekeminen voi signaloida kohdeyleisöllesi, että hei, olen kuten tekin. Vilman ja Airin esimerkki oli klassisesta irkistä, joka oli heidän mukaansa myös tietotekniikkaopiskelijoille identiteetin rakennuksen väline – oltiin muualla kuin massojen Facebookissa. Samalla tavoin ehdokas voi valita välineitä strategisesti, osoittaakseen kuuluvuutta tiettyyn ryhmään.

Yllä hahmoiteltiin digitaalista vaalitelttaa teknologian sekä sosiaalisen roolin kautta. Virallisesti tälle on sana: sosiotekninen järjestelmä. Ei se tosin varmaan auta edes meitä tutkijoita eteenpäin. Ehkä riittääkin muistaa, että digitaalisen vaaliteltan tutkimuksessa on tarpeen pohdiskella niin teknologian kuin sosiaalisen merkitystä vaaliteltan käytännöissä.

Lisätään rajauksia digitaaliselle vaaliteltalle tarkastelemalla havaitseviamme piirteitä perinteisissä vaaliteltoissa.

  • Digitaalisen vaaliteltan tulee olla julkinen ja saavutettavissa oleva. Tämä tarkoittaa, etteivät monet suoraan viestintään perustuvat muodot (tekstiviestit, sähköpostit) ole digitaalista vaalitelttaa. Ne ovat vain ihmisten välistä digitaalista viestintää. Julkisuuden kannalta kiintoisaa on, että vaaliteltan tulee olla löydettävissä. Omassa tutkimuksessamme aihetunnisteet (hashtagit) mahdollistivat vaalitelttojen löytämisen sekalaisesta Twitter-virrasta. Tällöin aiheesta kiinnostuneet ihmiset voivat helposti seurata vaaliteltan toimintaa. Samoin Facebook-sivut ja ryhmät ovat selkeästi löydettävissä ja tunnistettavissa.
  • Vaaliteltat ovat osa vaalien tekemistä. Digitaaliset vaaliteltat nivoutuvat osaksi ihmisten arkea, näkyvät esimerkiksi uutisvirrassa. Digitaalisten vaalitelttojen täytyy sitoutua osaksi olemassa olevaa sosiaalista verkkotoimintaa, niiden pitää tarjota sosiaalisia objekteja muille käyttäjille. Hienolla sanalla tarkoitetaan sitä, että niitä pitää voida jakaa ja integroida muuhun verkkokäyttöön. Sosiaalisina objekteina ne ovat ajasta ja paikasta riippumattomia, mutta silti läsnä normaalissa mediaympäristössä – kuten vaaliteltatkin. Toisaalta, vain vaalitelttojen näkeminen ei vielä tarkoita, että sillä olisi vaikutusta äänestyspäätöksiin.

En ole vielä puhunut digitaalisen vaaliteltan toiminnasta, ei ole yhtä oikeaa tapaa olla läsnä digitaalisessa ympäristössä. Digitaalinen vaaliteltta on sosiaalinen ja jaettavissa oleva toimintaympäristö poliittiselle viestinnälle. Kuitenkin, kampanjointi siellä voi muuttua riippuen tekijästä, ajankohdasta ja kontekstista.

Ehkä kokonaisuudessaan tämä sekava tajunnanvirta koitti sanoa, että meidän olisi syytä miettiä kunnolla digitaalisen vaaliteltan – ja miksei perinteisenkin – luonnetta osana vaaleja. Nyt esitetyt pohdiskelut eivät vielä johdata meitä hyvään määritelmään, mutta ehkä kuvaavat jo jotain tärkeitä kriteereitä. Kuitenkin tarvittaisiin kunnollinen – ja ennenkaikkea empiriaan sekä kirjallisuuteen – sitoutunut määritelmä ennen tarkempaa pohdiskelua.

Ehkä koko termi nyt sitä pyöriteltyäni kuulostaa aikaiselta internet-vaiheelta, kun verkkoa koitettiin käsitteellistää fyysisenä tilana (esimerkiksi Johnston, 2009). Toisaalta, teemme käännöstyötä eri alojen välissä, ehkä muutama esittämäni pointti voi olla perinteiselle politiikan tutkijalle hyödyksi ja avuksi omissa pohdinnoissa.

Kiitokset tekstin kommentoinnista Jesse Haapojalle. Kiitokset oikoluvusta Ada Hyväriselle.

2015 Cyberelections: combining ethnography with big data analysis

Snippet of analysis code.

2015 Cyberlelections (Digivaalit 2015) project, a joint collaboration with Helsinki University CRC and Aalto University HIIT, started officially in January 2015. With a multidisciplinary team of social scientists and computer scientists, our overall purpose was to study the ways how agenda is built in the online public sphere during the Finnish Parliamentary elections 2015. Thus we studied the ways how actors online can influence the agenda of both social media and traditional media, i.e., the ways of influencing online.

For that purpose, we collected a big set of data consisting all candidate updates from different social media services (Twitter, Facebook, Instagram) as well as traditional media content from 19 different news media, in practice trying to extract everything that happened online during the elections. In total our full data set ranges to approximately 1,5 million messages.

A dataset of that size means that traditional or qualitative methods are not enough, because it’s an amount of data no person can analyze by hand. Therefore, we turned to computational social sciences approaches, i.e. using computers and written algorithms to analyze our data. Such methodological approach has been recently entitled as computational social science.

Computational social science is an approach that utilizes computational methods and algorithms in different stages of the research process from data collection to data preprocessing and data analysis. In practice this means all tools used in research are written for a unique study purposes since no ready made tools are available.

This is an approach with several advantages but also disadvantages. For instance, extracting the data as pure textual format gathered through the APIs we cannot fully understand the context where the data is born. As Lisa Gitelman puts it, raw data is an oxymoron, and has no value as such. Second, we easily end up in a situation where we have to blindly trust the results what our algorithms give us, and they are often quantified. What do these numbers mean? Third, there are choices that need to be made both during the data collection as well as during the analysis phase.

These choices and interpreting the results require contextual and theoretical knowledge. In the field of social physics, social phenomena have been studied using computational methods by computer scientist and physicists who do have the methodological knowledge but not the theoretical or contextual knowledge – and often no interest in that either.

Ethnography to the rescue!

In our project we aimed to tackle these limitations by combining computational social science with ethnography. Ethnography is a research approach that aims to create understanding and make sense of human life and social communities and practices within those communities. It is commonly conducted in the natural environments of human action. Ethnography is often characterized with a period of field work, a period of time when the researcher intensively immerses with the people and the culture she is studying, observing the practices and participating in the activities, writing field notes.

When ethnography moves online, it can be generally called online ethnography. There are several sub-approaches of online ethnography such webnography that focuses on web sites, network ethnography focusing on actor networks, netnography that focuses on communities, media ethnography where the researcher participates as a media user, trace ethnography, where log data of online platforms is used to trace user behavior patterns.

All these methods raise questions, (see Wittel 2000). For example, what counts as participatory observation online? When is a researcher participating, how do the research subjects know they are being studied? How can the researcher actually participate in the field, when necessarily a part of the physical context where the action takes place remains unseen and unreachable? How to understand the human actions taking place behind the online, in the so called real life?

Markham (2013) takes a reconciling approach to these questions and suggests that we just need to conceptualize the field in a bit different manner, not as a place, but as a flow or a process, and accept that as the forms of participation differ online, also forms of participatory observation can differ. Following her suggestions we proceeded with an ethnographic field work online for one full month before the election date, by three researchers. One focused on the left wing parties, one to right wing parties, and third to overall election-related communications cross-platform. Here the focus was rather wide, looking at the forming of the online agenda around the election, candidate communication styles as well as interaction with other actors. Field notes we written and screenshots and links saved on a daily basis.

Solving the burning questions of big data and social sciences

Based on our experiences, we propose a methodological approach of Data Augmented Ethnography, which overcomes many of the limitations of both methods. First, what comes to the context, we posit that using ethnography with computation social sciences enhances contextual framing. In the analysis phase, it is much easier to interpret the results when we can compare them to the field notes made during the field work. Further, the field notes can help us in crafting the algorithms to ask right questions in the first place. Ethnography also helps us already during the data collection phase so that we can be sure to include all the data we are interested in and for instance, modify our search queries on the go.

And why not use only ethnography? Because using computational methods allows us to use larger data sets and study the phenomena in larger extent than only snapshots of the case. Also, they allow for validation and generalization of our findings and observations.

Hence, we suggest supplementing ethnographic field work with computationally collected data, and simultaneously use the observations to modify the data collection. In the analysis phase we suggest both data sets to be used in parallel to complement the observations made in each of them. Further, in the best case, we suggest qualitative analysis on selected parts of the data would be conducted to go deeper with the observations. For instance in our research project, Mari Tuokko’s master’s thesis is an example of such approach.

There is no full data

As a final reminder it needs to be noted that data and observations always remain incomplete. The data that is visible for an observing researcher is always limited. Similarly any collected data sets, collected handles, or hashtags always remain incomplete – none of the application programming interfaces of Twitter for instance give the “full” data. Some parts of the interaction takes place on private arenas or outside the online. Therefore, in essence, the idea of having a full data is an oxymoron. With a mixed methods perspective such as data augmented ethnography, however, we can gain a more nuanced understanding of the social action that takes place online.

More about the project:

Suomi24 Data Science Hackathon – results and afterthoughts

The availability of large data sets and digital material is changing the landscape of research within social sciences and humanities. At the same time, tools and the understanding necessary to utilize such data are often lacking. To tackle this problem, during the last weekend of May we organized a Data Science hackathon around a newly opened data set of Suomi24, the largest online discussion forum in Finland with 1.9 million monthly visitors.

The hackathon was organized by the Citizen Mindscapes research collective, University of Helsinki, Futurice Oy and Aller Media Oy. The event was also part of Nordic Open Data Week and organized in cooperation with Open Knowledge Foundation. The main goal of the event was to allow researchers and coders work together and find new ways of collaborating in the field of data science. We built four different teams consisting of coders and researchers to figure out research problems and create solutions and demos to find their answers.

The dataset used in the event was the almost entire database of Suomi24 online forum discussions ranging from 2001 to 2015, consisting of hundreds of thousands of posts and altogether over 123 million words – a set of data rather impossible to study comprehensively using traditional methods from social science or humanities. Below is a summary of the work and results discovered by the teams.

Rhythms of Human Life in Suomi24

This team was interested in the life cycle of topics in Suomi24. A typical way of studying topics is creating a list of words and querying the data with the words. As one exercise this team tracked the conversations related to jealousy using a list of fifteen related words. They noted that in general the talk about jealousy has increased during the time span of the data. Maybe people were not so used to talk about personal issues online but year by year it is getting more common? Further, the analysis shows that jealousy words peak during January and in May; on the contrary in December discussions on the topic are rare. The team hypothesized that this relates to the well-known phenomenon of finding a summer fling, or the aftermath of all the Christmas parties.


User Modeling and Micro Level Interactions

This team focused on tracking down different interaction types, recognizing positive/negative discussions, and finding out what words or linguistic features are predicting longer discussion threads. In essence these questions directly relate to a very practical problem of how to create interaction in the online sphere and produce text so that the writer can create engagement. The team decided to simply measure this using the length of the thread as the dependent variable, and using MDL (Minimum Description Length) started searching for the linguistic features that are typical to long or short conversation threads. Limiting the analysis to conversation sections related to babies and society, they identified some discreet words, topics and features of the text that are typical for short and long threads (see table below).

baby section: inconvenient topics (pregnancy, test, symptoms, miscarriage, periods)
society section: god, work, human
baby section: boy, kid, man, girl, mother, movie
society section: Jesus, forest, baptize
asking, short sentences, question mark, words indicating uncertainty (mikä mutta vai jos), colloquialism subordinate clauses, certain conjunctions (että, vaikka, ja), quotations, commas

Forecasting the Economy

Our forecasting team decided to study what words and topics get accentuated during a financial downturn, and to check whether the online discussions could be used as a tool to predict the economical situation. The theoretical idea behind this question comes from John Maynard Keynes’s notion of animal spirits; the instincts, fears and emotions ostensibly influence and guide human behavior, and through that also affect the economic cycle. In order to answer their questions the team obtained additional data sets regarding Finnish GDP and private household consumption from the National Statistics Finland. An index to measure economic uncertainty in the discussions by a set of key words was created using previous studies as a source. An OLS regression model was tested but didn’t have large explanatory power with this data set. Nevertheless, in the next part of the analysis the team  identified the words whose frequencies rose during the months of the crisis years 2008 and 2009. So, if the economical situation is going down, what are the words people use more often? The identified words were: bar, mother-in-law, poem, weapon, bank, electricity, unemployed, lonely, Easter, girlfriend. We do hope these words are not related to a single story!

Cats versus Dogs

Our last team decided to solve the old Internet dilemma of cats versus dogs once and for all. It is well known that Internet belongs to cats. But how about Suomi24? Are cats also the most prominent animals there? Different statistics were extracted from the data, but the situation kept looking bad for cats: dogs are mentioned more often across the data. Also the amount of users who talk about dogs versus cats is larger. A final analysis was conducted to see whether other topics that cat/dog persons talk about actually differ. The results show what cat people do talk more about mathematics, where as dog persons talk about poop. This whole exercise of course was just a humorous example of what to do with the data, and how to twist the data so that a needed answer can be found – it is just a matter of what to measure. A critical point to note is thus that one should be cautious of different black boxes of data analytics: there might have been other statistics behind the ones that you are shown.

Screen Shot 2015-06-03 at 16.02.51

Some afterthoughts

Apart from the fantastic results from the demos the whole event of course was a learning experience. Most important observation is the need for multidisciplinary knowledge and skills within the teams. Without a more general, wider knowledge about the societal phenomena that are affecting the creation of such social big data in the first place it is not possible to draw relevant conclusions. Our hypotheses of the jealousy discussion, for instance, are pure speculations for now, but probably a dwell into social psychology research on the topics would take us lot further.

Also there’s a clear need to better understand the context of the words studied, as their meaning can be heavily dependent on that. Based on the cat vs. dogs analysis, for instance, we can’t say whether the discussions about cats or dogs are actually pro-cats or pro-dogs or are people actually just complaining about the neighbors pet – this would need deeper analysis regarding the context and tone of the messages.

And of course during two days you probably will not learn that many new skills but rather utilize the old ones in a new context. So no two-day magic crash courses to python coding actually happened, but hopefully some broadening of mindscapes for researches both in social and computational sciences!

  • The Suomi24 data set can be explored through FinCLARIN’s Kielipankki Korp-interface. Full data set is available for download for research purposes.
  • Follow Citizen Mindscapes researcher collective in Twitter.
  • Team members: Rhythms team Pasi Karhu, Limae Phuah, Omar El-Bagawy, Jaakko Suominen, Krista Lagus, Minna Ruckenstein; User Modeling team Antti Rauhala, Krista Lagus; Forecasting team Kimmo Nevanlinna, Timo Nikkilä, Joonas Tuhkuri; Cat vs. Dogs group Matti Nelimarkka, Salla-Maaria Laaksonen.

This post is a cross-posting from