Algoritmit uutisissa: ensimmäisiä havaintoja

Minua kiinnosti kuinka suomenkielisessä mediassa puhutaan algoritmeistä, tekoälystä ja koneoppimisesta; tuosta tämän päivän maagisesta taikuudesta. Ensimmäinen yllätykseni on, että ensimmäinen osuma varsin laajassa media-aineistossamme on vuodelta 1994! Noin muutekin hämmennyin kun Aamulehden uutisoinnissa ei ole selkeää tihentymää tai määrän kasvua – uutisointi on ollut erittäin aktiivista jo vuodesta 2000. Yleisradiolla sen sijaan nähdään selvästi, kuinka uutisointi on kasvanut noin 2012 vuodesta erittäin paljon, mutta sitä ennen uutisissa nämä taikasanat ovat olleet enemmänkin sivuhuomioita.

Screenshot 2017-07-12 16.42.20
Aamulehden uutiset missä on sana algoritmi, tekoäly tai koneoppiminen
Screenshot 2017-07-12 16.42.09
Yleisradion uutiset missä on sana algoritmi, tekoäly tai koneoppiminen

 

Havaitsimme Aamulehden olleen poikkeuksellisen aktiivinen algoritmiuutisoinnissaan jo 2000-luvun alkupuolella, kun Yle siitä villiintyi vasta 2010-luvun puolella. Selvää kuitenkin on, että 2010-luvulla algoritmeistä puhutaan merkittävästi enemmän kuin 2000-luvulla.

Aiheiden osalta käytimme aina yhtä trendikästä aihemallinnusta ja uutisaineistosta löytyikin 41 erilaista aihetta – jotka selkeyden takia luokittelimme kymmeneen ryhmään:

  1. Pelit ja peliarvostelut
  2. Tekniikan kehitys, esimerkiksi itsestään ajava auto sekä tekoäly
  3. Elokuvat, viihde ja taide
  4. Kaupalliset palvelut ja niiden algoritmit
  5. Tutkimus algoritmeistä
  6. Tietoturvallisuus
  7. Ohjelmoinnin opetus peruskoulussa
  8. Työllisyys ja työelämän murros
  9. Algoritmien kaupallinen arvo
  10. Algoritmit ja maailmanpolitiikka
timeline.png
Algoritmit uutisissa teemoittain

Havainnoimalla eri teemojen näkyvyyttä mediassa huomaamme, että 2000-luvun alusta tähän päivään on tapahtunut siirtymä viihteistä ja peleistä erityisesti kaupallisten palveluiden algoritmien pohdiskeluun ja esimerkiksi algoritmien vaikutukseen työelämässä.

Temaattinen muutos on tervetullut algoritmisten järjestelmien yhteiskunnallisen merkittävyyden takia, mutta yhteiskuntatieteissä juuri nyt trendikäs kriittinen algoritmitutkimus ei ainakaan tämän analyysin perusteella ollut erityisesti esillä. Ehkäpä peruskoulun ohjelmointiopetuksessa kannattaisi käyttää myös muutama tunti pohtimaan teknologian valtaa eikä vain yrittää oppia ohjelmoinnin alkeita?

Kiitämme Yleisradiota sekä Alma mediaa tutkimukseen käytettyjen aineistojen tuomisesta käyttöömme. Perinteisestihän Suomessa on aina tutkittu Helsingin Sanomia, mutta heidän kautta media-aineistoa ei ole saatavilla.

Varovaisuutta aihemallinnuksen kanssa

Eräs laskennallisten menetelmien tällä hetkellä suosituin sovellus on aihemallinnus eli topic modeling. Se mahdollistaa laajojen tekstiaineistojen jakamisen ryhmiin ja tällä tavalla “kaukoluvun” aineistosta. Tietenkään sen ei koskaan ole tarkoitus korvata aineiston lähilukua (esim. Grimmer & Stewart, 2013), mihin voi käyttää vaikka etnograafisia menetelmiä.

Eräs valinta aihemallinnuksesta on aiheiden määrän, eli tutummin, k:n valinta. Kirjallisuudessa usein esiintynyt tapa tähän on katsoa muutama eri arvo ja valita näistä selkeiten tulkittavissa oleva. Kritisoin tapaa jo marraskuun Rajapinta-meetupissa. Yksinkertainen koeasetelma näytti kuinka ihmisten mielipide selkeydestä vaihtelee merkittävästi.

Aihemallinnus: tuloksia eri k:n arvoilla
Alustava luokitus aineiston sisällöstä eri aihemallinnuksilla. Katso vain kuva.

Kuvassa näemme kuinka niiden tulkinnat myös tuottavat hiukan erilaisia näkemyksiä aineistoista. (Varoitus: nämä ovat vielä alustavia nimiä, eli en ole vielä itse täysin tyytyväinen näihin.) Olen pyrkinyt ryhmittelemään aineiston niin, että samanteemaiset aiheet olisivat samalla rivillä.

Kuvasta nähdään esimerkiksi kuinka aiheiden määrän lisääntyminen kahteenkymmeneen aiheeseen selkeästi tuo jotain uusia ajatuksia aineistoon, erityisesti alueelisuuden ja globalisaation. Toisaalta aiheena esimerkiksi suomalaisuus on osassa malleissa mukana ja osassa ei, mikä luultavasti kuvaa aihemallinnusprosessissa olevaa satunnaisuutta. Toisaalta 26 ja 30 aiheen mallit tuovat esille taloudellisuuden, perusturvan sekä edustuksellisuuden aiheita.

Aihemallinnuksen soveltajille uutiset ovat valitettavia: en itse pitäisi sopivana ajaa aihemallinnusta teoreettisesti mielekkäällä lukumäärällä tai tutkimalla muutamaa eri aihemäärää. Riskit vääristä tulkinnoista ovat ilmeiset näissä tapauksissa. Sen sijaan pitäisin itse toivottavana aihemäärän valitsemista laskennallisin kriteerein, kuten log-likelihood arvoja käyttämällä. Vaikka näistäkin käydään ritstiriitaista keskustelua, tämä silti vähentäisi tiettyä epävarmutta mikä nykyiseen käytäntöön tulee.

Erityiskiitos Koneen Säätiölle tutkimuksen tukemisesta sekä Tieteen tietotekniikan keskus CSClle laskenta-ajasta.

Hajaantukaa – täällä ei ole mitään nähtävää – algoritmikeskustelusta Suomessa (osa 1)

Screenshot 2017-03-15 11.42.35Algoritmit ovat kuuma aihe paitsi julkisessa keskustelussa, myös kansainvälisessä yhteiskuntatieteellisessä kirjallisuudessa. Pelkästään viime vuoden aikana julkaistiin ainakin kolme erikoisnumeroa, missä käsiteltiin algoritmeja ja niiden roolia yhteiskunnassa. Niin akateemisessa keskustelussa, kuin populaareissakin teksteissä on aistittavissa tietynlainen algoritmien musta magia. Algoritmit eivät ole mitään taikaotuksia jotka hallitsevat maailmaa. Algoritmi on Wikipedian ensimmäisen lauseen mukaan

yksityiskohtainen kuvaus tai ohje siitä, miten tehtävä tai prosessi suoritetaan; jota seuraamalla voidaan ratkaista tietty ongelma.

Maailma on siis täynnä digitaalisia ja vähemmän digitaalisia algoritmeja. Silti pääpaino tuntuu olevan digitaalisissa ympäristössä, kuten Kari Haakanan suomenkielisessä pohdinnassa, vaikka siinä taitavasti tuodaan yhteen jopa klassista teknologian tutkimuksen argumenttejä. On totta, että digitaalisuus todella muuttaa monia ympäröiviä tapahtumia ja algoritmit ovat digitaalisuudessa  keskeisessä roolissa. Vastaavia yksityiskohtaisia kuvauksia ja ohjeita ongelman ratkaisuun on kuitenkin  aina ollut olemassa.

Esimerkiksi Kelan viimeaikainen toimeentulotukisotku monine muotoineen herättää varsin paljon kysymyksiä toimeentulotuen laskennassa käytetystä algoritmista. En tiedä onko taustalla tietojärjestelmän sotkut vai muuten prosessisuo, mutta julkisuuteen nostetut esimerkit – kuten tarve myöntää henkilölle sentin toimeentulotuki maksusitoumusten saamiseksi eteenpäin  – kertovat, että ”algoritmi” ei nyt oikeastaan toimi erityisen järkevästi. Ehkä tässä tullaan keskeiseen huomioon, jota jo Jansson & Erlinngsson (2014) havaitsivat jo aiemmasta tutkimuksesta: haasteena digitaalisissa (sekä ei-digitaalisissa) algoritmeissa on sääntöjen joustamattomuus – usein todellinen maailma ei sopeudu tiukkaan algoritmin ajattelemaan muotoon.

Tässä kohtaa ehkä voi huokaista helpotuksesta, algoritmit ovat kuin todella tarkkoja byrokraatteja. Mutta missä sitten piilee digitalisaation suuri mullistus? Miksi algoritmit ovat niin tapetilla yhteiskuntatieteellisessä kirjallisuudessa ja miksi niistä vouhkotaan (juuri nyt) niin paljon?

On toki totta, että digitaalisten palveluiden myötä me kaikki altistumme mahdollisesti uudenlaiselle, näkymättömälle byrokratialle ja vallankäytölle. Uutta ehkä on, että nyt päätöksentekijänä voi olla joku kasvottomalta näyttävä järjestelmä (noh, en tiedä onko se Kela yhtään parempi esimerkki kasvollisesta järjestelmästä). Mutta, kuten useimmiten, kaiken takaa löytyy kuitenkin ihminen. Algoritmi on aina ihmistoimijoiden tuottama väline, joka toteuttaa ihmistoimijoiden suunnitteleman prosessin. Teknologia-alan demografian perusteella tuo ihmistoiija on melko varmasti valkoinen mies, vaikkei tosin keski-ikäinen. Ja tässä nyt ei ole mitään uutta taivaan alla, valitettavasti. Jyllääväthän valkoiset (keski-ikäiset) miehet monessa muussakin yhteiskunnan päätöksenteon koneessa.

Yhteiskuntatieteellinen mielenkiinto algoritmeihin selittyy niiden tuoreudella. Kyseessä on konkreettinen uusi ”esine”, jota mätkiä tutkimusmenetelmillä ja ajatuksilla. Ja tuoreet aiheet usein herättävät tutkijoiden mielenkiintoa, koska ne ovat uusia ja tuoreita. Toki on tutkimukselle myös tarvetta. Kuten Kitchin (2017) huomauttaa, kriittistä tutkimusta algoritmeista on vähän – varsinkin verrattuna kaikkeen muuhun algoritmitutkimukseen esimerkiksi tietojenkäsittelytieteessä ja insinööritieteissä. Pohdinkin siis,

  • Miten julkisessa keskustelussa käytetään sanaa algoritmi ja mitä sillä oikeastaan tarkoitetaan?
  • Miten perinteiset vallankäytön muodot soveltuvat algoritmien kritisoimsieen ja mitä uutta algoritmit tuovat esimerkiksi perinteiseen byrokratian ajatukseen?
  • Voisimmeko silti koettaa olla nostamasta algoritmia kultaiselle jalustalle ja sen sijaan purkaa mitä oikeastaan tarkoitamme sillä?

Postailen kevään aikana enemmän ajatuksiamme tästä aiheesta ja käsittelemme tematiikkaa myös meetupeissamme.

How to study Big Data epistemology in the social sciences?

In the recent years there has been discussion about whether the rise of Big Data—understood as a collection of methods and practices involved in the analysis of voluminous and rapidly accumulating data with varying structure—calls for a new kind of epistemological understanding of science (e.g. Kitchin 2014; Frické 2015; Floridi 2012; Hey et al. 2009). For instance, Rob Kitchin proclaims that

There is little doubt that the development of Big Data and new data analytics offers the possibility of reframing the epistemology of science, social science and humanities, and such a reframing is already actively taking place across disciplines. (Kitchin 2014, 10.)

This epistemological reframing is due to the idea that Big Data enable a novel form of inquiry called data-driven science, which seeks to generate scientific hypotheses by discovering patterns in vast amounts of data (Kelling et al. 2009, 613-614; Kitchin 2014, 6-7). Data-driven science contrasts with the more traditional ‘knowledge-driven science’, where the hypotheses to be examined are derived from theory rather than data (Kelling et al. 2009, 613). Thus, the argument is that Big Data can reorient the roles that data and theory play in research, and that therefore we should rethink our conception of how scientific knowledge production works.

How, then, should one go about studying Big Data epistemology? How to assess the claim that Big Data enable a novel form of scientific inquiry, which cannot be analysed using traditional epistemological concepts?

In the context of biology, Sabina Leonelli has argued convincingly that in order to critically evaluate the epistemological novelty of Big Data, ‘one needs to analyse the ways in which data are actually disseminated and used to generate knowledge’ (Leonelli 2014, 2). This is quite plausibly so in the context of the social sciences, too. As Kitchin and McArdle (2016) argue, there is no single notion of ‘Big Data’ that would apply across all contexts, and accordingly the ways in which knowledge is generated are likely to vary as well.

Thus it seems sensible that a study of Big Data epistemology in the social sciences should begin with an analysis of the different ways in which Big Data are used in different social scientific contexts. With this purpose in mind, I have collected a number of special issues, sections, and symposia on Big Data that have been published in social scientific journals in the past few years (2013-2016). A review of the different conceptions and uses of Big Data in this collection should give some basis for an assessment of the extent to which the epistemology of the social sciences needs to be reframed.

Below is a list of the collected issues along with short descriptions of their contents.

Special issues, sections, and symposia on Big Data

Political Behavior and Big Data
International Journal of Sociology 46(1), 2016.

The articles in this special issue come from political sociology, cross-national methodology, and computer science. The purpose of the issue is to identify and discuss a set of pressing methodological problems pertaining to the use of Big Data methods in these fields, including the following:

  1. Can Big Data tools be used to describe and explain political behaviour?
  2. How to create a large numerical data set from textual data?
  3. How to deal with the problem of selection in constructing event data with Big Data methods?
  4. How to harmonize large volumes of survey data from distinct sources into one integrated data set?

Big Data in Psychology
Psychological Methods 21(4), 2016.

This special issue provides 10 articles that discuss the benefits of engaging psychological research with Big Data and give instructions for the use of various common research tools. The first four articles offer guides to using Big Data methods and tools in psychological research, giving advice on the use of various APIs and web scraping tools to collect data, as well as on managing and analysing large datasets. The remaining six articles then demonstrate the use of Big Data in psychology, examining the spread of negative emotion on college campuses, models of human declarative memory, methods of theory-guided exploration of empirical data, the uses of statistical learning theory in psychology, and methods for detecting the genetic contributions to cognitive and behavioural phenomena.

Big Data and Media Management
International Journal on Media Management 18(1), 2016.

The stated goal of this special issue is to showcase media management research that employs Big Data, or analyses its use in media management (see the issue introduction, 1-2). The issue includes four research articles, which use Big Data to derive metrics for audience ratings, identify influential factors in terms of news sharing, discuss television use measurement, and examine consumers’ willingness to share personal data.

Special Issue on Big Data
Journal of Business & Economic Statistics 34(4), 2016.

This special issue includes six articles on Big Data finance and seven articles on macroeconomics, high-dimensional econometrics, high-dimensional time series and spatial data. The articles discuss a variety of issues in these fields, developing theory and methods for addressing them as well as investigating applications. (See the issue introduction, 2-3.)

Transformational Issues of Big Data and Analytics in Networked Business
MIS Quarterly 40(4), 2016.

This special issue consists of eleven research articles, which develop a variety of Big Data analysis methods relevant for information systems and business. Included are a data-driven tree based method for assessing interventions in the presence of selection bias; network methods combining sentiment and textual analysis for developing brand advertising; methods for using fine-grained payment data to improve targeted marketing; a study of the causal effectiveness of display advertising; a model to improve resource allocation decisions; a crowd-based method for selecting parts of data as model input; methods for dealing with the scalability and privacy of data sharing; a utility-theory based structural model for mobile app analytics; a predictive modeling method for business process event data; a topic modelling method for measuring the business proximity between firms; and a method to address various wicked problems of societal scale in information systems. (See the issue introduction, 815-817.)

Toward Computational Social Science: Big Data in Digital Environments
The ANNALS of the American Academy of Political and Social Science 659(1), 2015.

The articles in this special issue on Big Data and computational social science come from diverse disciplines, including psychology, epidemiology, political science, and communication studies. The twenty research articles included in the issue are divided into five subsections, titled ‘Perspectives on Computational Social Science’, ‘Computer Coding of Content and Sentiment’, ‘Mapping Online Clusters and Networks’, ‘Examining Social Media Influence’, and ‘Innovations in Computational Social Science’. Each of these sections contains four articles with discussions of the section theme or empirical studies using Big Data.

Big Data, Causal Inference, and Formal Theory: Contradictory Trends in Political Science?
Symposium in Political Science & Politics 48(1), 2015.

The purpose of this symposium is to discuss whether formal theorising, causal inference-making such as experimentation, and the use of Big Data hinder or benefit from each other in political science. The seven articles included in the symposium agree that while there are limits to the extent to which Big Data can help solve problems in theoretical development of causal inference, the three should not be seen as contradictory to each other. In many cases Big Data can supplement the other two.

Section on Big Data
Sociological Methodology 45(1), 2015.

This section focusing on Big Data includes two articles. The first of these develops methods for analysing large-scale administrative datasets to yield econometric measures for urban studies. The second argues for a supervised learning method for analysing unstructured text content that combines machine-based and human-centric approaches.

Big Data, Big Questions
Special section in International Journal of Communication 8, 2014.

This special section includes eight articles which discuss political, ethical, and epistemological issues pertaining to Big Data. The issues discussed in the articles include power asymmetries related to data access; meanings attached to the term ‘Big Data’ in different discourses; the implications for democratic media of the use of Big Data in market advertising; problems pertaining to simplifications and standardizations in large-scale data sets; transparency in Twitter data collection and production; the uses and limitations of spatial Big Data; understanding the practices of the Quantified Self Movement; and the relationship between theory and Big Data.

Big Data in Communication Research
Journal of Communication 64(2), 2014.

This special issue includes eight research articles that use Big Data to address various questions in communication research. The questions addressed include agenda formation in politics; organizational forms of peer production projects; temporal dynamics and content of Twitter messages during elections; the relationship between television broadcasts and online discussion and participation; the acceptance of anti-smoking advertisements; the measurement of political homophily on Twitter; and cross-cultural variation in the use of emoticons.

Symposium on Big Data
Journal of Economic Perspectives 28(2), 2014.

This symposium contains four articles that focus on discussing problems of Big Data analysis in economics and introducing machine learning techniques suitable for addressing them, applications of data mining to analysing high-dimensional data, the uses of data gathered in political campaigns, and privacy issues pertaining to the use of Big Data in economics.

Policy by Numbers: How Big Data is Transforming Security, Governance, and Development
SAIS Review of International Affairs 34(1), 2014.

This issue features essays characterising the role of data in international affairs. The themes discussed range from the effects of selection bias in data collection on policymaking and the potential to use Big Data to estimate slavery, to issues pertaining to the openness of data and data custodianship.

Big Data/Ethnography or Big Data Ethnography
Session in Ethnographic Praxis in Industry Conference 2013.

The EPIC 2013 session on Big Data examines the relationship between Big Data and ethnographic research. The five articles in this session discuss the value of ‘small’ personal data in business, develop tools for analysing qualitative Big Data, argue that Big Data and ethnography should both be viewed as interpretative approaches to analysing human behaviour, examine the discourses and practices surrounding data among technology designers and the health and wellness community, and investigate the use of mobile money using mixed ethnographic methods.

Big Data in Political Science
Political Analysis virtual issue 5, 2013.

This virtual issue is a collection of articles published in Political Analysis between 2005-2013 that showcase the uses of Big Data and methods for analysing it in political science. The uses demonstrated by the articles include the validation of survey reports of voting, validation of online experiments, development of techniques for identifying word usage differences between groups of people, spatial sampling methods based on GPS data, and the measurement of legal significance and doctrinal development in judicial politics. The methods introduced include various Bayesian approaches to Big Data analysis and a general method for statistical inference with network data.

References

Floridi, L. (2012): Big Data and Their Epistemological Challenge. Philosophy & Technology 25(4).

Frické, M. (2015): Big Data and its epistemology. Journal of the Association for Information Science and Technology 66(4).

Hey, T., Tansley, S., and Tolle, K. (Eds.) (2009): The fourth paradigm: Data-intensive scientific discovery. Redmond,WA: Microsoft Research.

Kelling, S., Hochachka, W., Fink, D., Riedewald, M., Caruana, R., Ballard, G., and Hooker, G. (2009): Data-intensive Science: A New Paradigm for Biodiversity Studies. BioScience 59(7).

Kitchin, R. (2014): Big Data, new epistemologies and paradigm shifts. Big Data & Society 1(1).

Kitchin, R. and McArdle, G. (2016): What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets. Big Data & Society 3(1).

Leonelli, S. (2014): What difference does quantity make? On the epistemology of Big Data in biology. Big Data & Society 1(1).

Botteja, algoritmeja ja kokemuksen väärentämistä

 

Tällä viikolla Etelä-Saimaa julkaisi Juho Maijalan kirjoittaman jutun, jossa kerrottiin kansanedustaja Jani Mäkelän (ps.) mielipidekirjoituksiin kohdistuneesta bottiklikkausliikenteestä. Klikkiliikenteen seurauksena kyseiset kirjoitukset olivat nousseet lehden luetuimpien listalla kärkeen. Tapaus on rakenteeltaan mielenkiintoinen. Joku tai jotkut tahot ovat käyttäneet botteja vaikuttaakseen algoritmiin vaikuttaakseen juttujen asemaan verkkosivulla, minkä mitä luultavimmin toivotaan vaikuttavan lukijoiden toimintaan ja ajatuksiin. Tapaus siis suorastaan huokuu nykyaikaa ja näyttää osuvasti, kuinka algoritmeja voidaan valjastaa palvelemaan tarkoitusperiä, joita niiden kehittäjät eivät ole toivoneet.

Erving Goffman puhuu teoksessaan Frame analysis (1986) kokemuksen väärentämisestä (käyttäen termiä fabrication englanniksi). Etelä-Saimaan jutussa puhutaan näkyvyyden lisääntymisestä yhtenä seurauksena manipulaatiosta; itse lisäisin joukkoon myös kokemuksen muokkaamisen. Korkea asema luetuimpien listalla viestii myös jutun asemasta suosittuna muiden ihmisten keskuudessa, eli siihen liittyy sosiaalista informaatiota. Tässä tapauksessa kokemuksen väärentäminen kohdistuu juuri tähän. Kehys, jossa informaatiota tulkitaan perustuu oletukseen, että muut ihmiset ovat omalla toiminnallaan nostaneet tietyn tekstin luetuimpien listalla kärkipaikoille. Ihmiset käyttävät usein muiden toimintaa tiedonlähteenä oman toimintansa suhteen ja se voi osaltaan vaikuttaa myös sisällön arviointiin (e.g. Salganik, Dodds, & Watts, 2006; Knobloch-Westerwick, Sharma, Hansen, & Alter, 2005). Paljon luettu artikkeli voidaan tulkita sisällöltään ja näkökulmaltaan validiksi ja suosionsa perusteella tärkeäksi. Algoritmi toimi tilanteessa niin kuin se oli rakennettu: sen kannalta jokainen klikkaus oli yhtä aito kuin mikä tahansa muu. Se mikä tälle algoritmille on relevanttia dataa on ihmisen valinta. Klikkauksen ajatellaan symboloivan kiinnostusta tai muuta mahdollisesti positiivista suhtautumista tiettyyn kirjoitukseen. Tässä tapauksessa paljastui, että jos klikkausmäärä on se, minkä ajatellaan olevan objektiivinen mittari, niin klikkaus ei itsessään aina tarkoita ihmisen klikkausta ja intentio klikkauksen takana ei aina ole selvä.

Etelä-Saimaa paljastaessaan epäilyttävän verkkoliikenteen purki, Goffmanin termejä käyttäen, kehyksen joka oli botteja käyttäen rakennettu Jani Mäkelän mielipidekirjoitusten ympärille. Koko tapaus on osuva kuvaamaan, kuinka haavoittuvainen jopa hyvin yksinkertaisten mittareiden perusteella rakennettu kokemus voi olla, miten algoritmeja on mahdollista manipuloida omien intressien edistämiseksi, ja toisaalta kuinka fabrikoituja kehyksiä on mahdollista purkaa.

Kirjallisuutta:

Goffman, E. (1986). Frame analysis: An essay on the organization of experience. Harvard University Press.

Knobloch-Westerwick, S., Sharma, N., Hansen, D. L., & Alter, S. (2005). Impact of popularity indications on readers’ selective exposure to online news. Journal of Broadcasting & Electronic Media, 49(3), 296–313.

Salganik, M. J., Dodds, P. S., & Watts, D. J. (2006). Experimental study of inequality and unpredictability in an artificial cultural market. Science, 311(5762), 854–856.

Algoritmitutkimuksesta yleisemmin:

Gillespie, T. (2012). The relevance of algorithms. Media Technologies: Essays on Communication, Materiality, and Society, (Light 1999), 167–194. http://doi.org/10.7551/mitpress/9780262525374.003.0009

Kitchin, R. (2016). Thinking critically about and researching algorithms. Information, Communication & Society, 1-16.

Väline on osa agendaa eduskuntavaaleissa 2015

Aiheet eri mediakanavissa. Klikkaa suuremmaksi.

Eräänä iltana ryhmä Digivaalit 2015-hankkeen tutkijoita oli kokoontunut Mattermostiin juonimaan uusinta artikkeliluonnosta vaikuttaja-indeksistä ja agendan normalisoitumisesta. Analysoidessamme ehdokkaiden vaikuttajuutta eri medioiden agendaan olimme aiemmin kirjoittaneet myös kuvailleet aiheiden esiintymistä eri viestintävälineissä. Artikkelikäsikirjoituksessa teemajakauman rooli oli ollut enemmänkin kuvaileva, mutta nyt ryhdyimme pohtimaan, saisiko siitä sittenkin nostettua havaintoja – ja tasapainotettua artikkelia, joka oli aika valtaindeksiin keskittynyt ja vähän hassun muotoinen sen takia.

Mielestäni “iltavuoro” on paras aika tälläiseen työhön. Silloin voi tuijotettaan ja pohtia melko rauhassa asioita, tällä kertaa arvioida mitä taulukossa oikeasti olikaan esillä. Yön aikana syntyneet havainnot olivat – ainakin minun mielestäni – kiinnostavia.

Taulukosta nähdään, kuinka perinteinen media on selvästi poliittiseen asiasisältöön keskittynyttä, kun taas sosiaalinen media, niin ehdokkaiden kuin kansalaisten käyttämänä, korosti kampanjointia ja mobilisointia. Tämä ei ehkä ole kovinkaan yllättävää, sillä journalistinen, toimitettu sisältö on aina erityistä. Sen sijaan yllättävää voi olla asiasisältöjen moninaisuus perinteisessä mediassa. Kun sosiaalisessa mediassa keskusteltiin vain muutamista asiasisällöistä, oli toimituksellinen sisältö paljon rikkaampaa ja moniäänisempää. Näyttäisi siis siltä, että aiheiden monipuolisuuden näkökulmasta perinteiselle medialle on paikkansa.

Toisaalta ehdokkaiden Twitter- ja Facebook-aiheissa oli eroja. Ehdokkaat käyttivät Twitteriä enemmän poliittisten asiakysymysten käsittelyyn, kun taas Facebook oli kampanjoinnin ja mobilisoinnin areena. Tulokset liittyvät läheisesti viimeaikaiseen keskusteluun sosiaalisen median alustojen välisestä eroista, ja tukevat myös Mari Tuokon gradussa tehtyjä havaintoja.

Voidaan olettaa, että viestinnän tyyliin ja aiheisiin vaikuttavat myös alustojen teknologiset ominaisuudet. Esimerkiksi Twitterissä tunnetusti on rajoitettu 140 merkin määrä sekä viesteissä että vastuksissa, kun taas Facebookissa viestit sekä vastaukset voivat olla paljon pidempiä. Lisäksi Twitter oli vielä vaalien alla suoraviivainen julkaisumekanismissaan – uusimmat viestit ylimpänä – kun taas Facebook kuratoi sisältöä algoritmisesti.

Koska molemmat palvelut ovat myös sosioteknisiä järjestelmiä, myös ihmiset vaikuttavat viestinnän käytäntöihin. Esimerkiksi yleisön kokoonpano tai ehdokkaiden oletukset yleisöjen tyypistä vaikuttavat viestintään. Suomen tapauksessa on ensinnäkin syytä muistaa, että Twitter on enemmän eliittimedia (Vainikka & Huhtamäki, 2015) kun taas Facebook on tavallisten kansalaisten areena.

Viimeisenä todettakoon, että harmiksemme (vaikuttajalaskelman kannalta) oli vain muutamia teemoja jotka esiintyivät useassa mediakanavassa: turvallisuuspolitiikka, talous, koulutus ja energiakeskustelut. Ehkäpä on niin, että julkisuuteen vaalien alla mahtuu vain muutama isompi teema, joista sekä ehdokkaat, media että kansalaiset keskustelevat.

Kokonaisuudessaan olen varsin tyytyväinen siihen, mitä kaikkea teemajakumasta saatiin nyhdettyä irti kun sitä tarpeeksi tuijotettiin. Mitä siis opimme? Ei koskaan pidä kyseenalaistaa viimisten iltojen paniikkia osana pohdintaa ja tulkintaa. Toivottavasti käsikirjoituksemme saadaan pian julkaistua, niin voimme linkata sen tänne   myöhemmin kokonaisuudessaan.

(Yhteiskirjoittanut: Matti Nelimarkka & Salla-Maaria Laaksonen)

Miksi Rajapintaa tarvitaan rasismitutkimuksessa?

Rajapintalaisista ainakin Salla, Matti, ja Jesse ovat Suomen Akatemian rahoittamassa Racisms and public communications in the hybrid media environment (HYBRA) -tutkimushankkeessa. Valtiotieteellinen tiedekunta (Helsingin yliopisto), Viestintätieteellinen tiedekunta (Tampereen yliopisto) sekä Tietoteniikan tutkimuslaitos HIIT (Tietojenkäsittelytieteen laitos, Aalto-yliopisto). Mitä Rajapinta yhteisönä voi luoda osaksi rasismitutkimusta? Pohdintaan vähän tutkimuksen suuntaviivoja.

Meditila on hybrinen sekä big

Verkkovälitteinen viestintä, Facebookissa, Twitterissä, blogeissa ja muissa verkkoyhteisöissä on nykyisin arkipäiväistä. Käyttäjälähtöinen sisältö sekoittuu osaksi perinteistä viestintää, kuten Salla kirjoitti Rajapinnassa kesäkuussa. Tiivistetysti, rasismin tutkimuksessa on välttämätöntä havainnoida myös verkkoa, ja rajapintalaisilla on siitä melko hyvin kokemusta.

Olemme aikaisemmin jo tutustuneet sosiaalisen median datan louhintaan ja sen ongelmiin sekä murskaamiseen tieteeksi. Modernissa datan keräyksessä siirrytään lähemmäksi big datan aikaa – kerätään paljon aineistoa ja laskennallisesti koitetaan repiä irti yhteiskuntatieteen kannalta tuloksia.

HYBRAssa meitä kiinnostaa kuinka rasistiset sekä antirasistiset keskustelut leviävät ja virtaavat mediasta ja yhteisöstä toiseen. Aloitamme varmaan kansallisella tarkastelulla suomalaisissa yhteisöissä, mutta puhuimme myös kansainvälisestä ulottuvuudesta. Voimmeko demonstroida kuinka Atlantin toisella puolella olevat tapahtuvat ilmenevät täällä pohjolassa, ja mikä niiden virtaus täsmällisesti onkaan.

Ensimmäinen askel onkin rakentaa datan keräysalustaa ja kerätä aineistoja. Perinteitämme kunnioittaen julkaisemme tästä ohjelmakoodista vapaan lähdekoodin lisenssillä GitHub-repositoriossa. Koodia lukemalla siis näkee vähän aikaisemmin mitä ihmettä teemme, vaikka kerrommekin myös Rajapinnassa tekemisistämme.

Mediatila on rakennettu

Sosiologit käyvät tällä hetkellä varsin villiä keskustelua algoritmien vallasta. Rajapinnassa ei ole vielä tiivistelmää tästä keskustelusta, mutta Microsoft Researchin tutkijat ylläpitävät ajantasaista listaa artikkeleista. Ehkä lyhyenä tiivistelmänä aika laajasta kirjallisuudesta: algoritmit vaikuttavat ihmisten toimintaan ja ovat siis piilossa olevia sääntöjä ja valtarakenteita (Kitchin, in press).

Onko mediatilaa rakennettu rasismin kannalta älykkäästi? Esimerkiksi Facebookin Trending sekoilu näytti, ettei algoritmitkaan aina toimi erityisen hienosti. Käykä niin, että rasistiset (sekä antirasistiset) henkilöt löytävät toisensa suosittelualgoritmien avulla? Miten eri uutiset käyttäytyvät sosiaalisessa mediassa – onko sosiaalisen huomion kannalta mielekästä kirjoittaa rasistisia (tai antirasistisia) uutisia? Mielessäni on myös ajatukseni vuodelta 2015: voimmeko testata jotain ajatuksiamme algoritmeistä, käyttöliittymistä sekä rasismista rakentamalla vuorovaikutteisia järjestelmiä.

Miksi rasismi tutkimuskohteena?

Olemme Rajapinnassa tutkineet varsin laajalla skaalalla erilaisia asioita ja rasismi saattaa vaikuttaa yllättävältä lisältä teemana yhteisöömme. Pohdiskelin vuoden vaihteessa tutkimuksen kehystämisen ongelmia – esimerkiksi vaalitutkimuksemme mielenkiinto tulosten osalta ei tule olemaan mitenkään suurta Suomen ulkopuolella. Vaalijärjestelmämme ja mediaympäristömme on hiukan outo kaikille muolle. Mahdollisesti jotkut menetelmällisemmät ajatukset, kuten valtaindeksit, etnografia osana laskennallista tutkimusta tai vuorovaikutuksen käsittellistäminen auttavat tiedettä eteenpäin, ovat jargonilla mielenkiintoisia kontribuutioita.

Rasismitutkimuksessa saamme omalle työllemme yhteiskunnallisen motiivin (se on aika tärkeää kun perjantai-iltana istuu Otaniemessä ja miettii, että viikonloppu palaa tämän parsissa sitten kuitenkin) sekä toisenlaisen yhteisön, jolle Suomi ei ehkä ole niin erikoinen lumihiutale tutkimusalueena.


Rajapinnassa tullaan julkaisemaan aktiivisesti pohdintoja ja miettimistä hankkeen aikana aihetunnistella hybra. Ei tarvitse aina odottaa varsin hidasta akateemista julkaisua.