Politiikkaa ja demokratiaa käyttöliittymätutkimuksen näkökulmasta

Politiikka ja demokratia ovat hankalia termejä: ne voivat viitata niin valtiomuotoon, päätöksentekojärjestelmään, yhteisesti sovittuihin sääntöihin, organisaation toimintaan tai vaikka mihin muuhun. Viimeistään nyt on ilmeistä kaikille, että teknologiat vaikuttavat siihen, kuinka demokratia toimii ja politiikka muotoutuu. Ajankohtaisista esimerkeistä mainittakoon presidentti Trumpin sosiaalisen median aktiivisuus ja markkinointi tai kansalaisaloitteiden keräämiseen tarkoitettu verkkoalusta.

Tutkimuskirjallisuudessa teknologian ja demokratian sekä politiikan yhteys on toki ollut esillä jo pitkään. Esimerkiksi Dahlberg (2001) sekä Becker (2001) molemmat kuvittelivat, että teknologia voi parantaa demokraattista osallistumista ja mahdollistaa avoimemman sekä keskustelevamman kansalaisosallistumisen. Toisaalta, esimerkiksi Hindman (2009) on korostanut uuden teknologian mahdollisesti haittaavan demokraattisen yhteiskunnan kehittymistä esimerkiksi hakukoneiden ottaessa vallan informaation välityksestä. Tätä kirjallisuutta on runsaasti ja kolme lähdettä ei tee kunniaa kaikille ajatuksille, joita on esitetty. Minua kiinnosti kuitenkin tarkemmin tietyn tieteenalan – käyttöliittymätutkimuksen – näkökulma tähän tematiikkaan. Käyttöliittymätutkijoilla on keskeinen rooli teknologian ja ihmisten välisen vuorovaikutuksen tutkimisessa, jolloin teknologian ja yhteiskunnan välinen vuorovaikutus olisi varmaan heille kiinnostava aihepiiri.

Yhteensä erilaisilla politiikka- ja demokratia-avainsanoilla artikkeleita löytyi noin 500 kappaletta ACM Digital Librarystä. Tämä voi tuntua paljolta, mutta 1980-luvun alusta syntyneelle yhteisölle artikkelit ovat kuin tippa meressä ja muodostavat noin prosentin käyttöliittymätutkimuksen kokonaisjulkaisuista. Esimerkiksi sosiaalista mediaa on tutkittu noin 1200 artikkelin voimin ja tekstin syöttämistä päälle 300 artikkelin voimin. Systemaattisesti luokittelemalla tunnistin politiikka- ja demokratia-kirjallisuudesta 14 erilaista lähestymistapaa politiikkaan.

Selkeästi isoin ryhmä oli akateemisen yhteisön ylläpitämiseen keskittyneet artikkelit, esimerkiksi työpatjakuvaukset, paneelit ja muut keskustelutilaisuudet. Myös yllättävän monissa esipuheissa mainitaan politiikka sanana, mikä ilmaisee yhteisön mielenkiintoa poliittisia aiheita kohtaan. Ei ole kuitenkaan täysin ilmeistä, johtaako tämä yleinen mielenkiinto akateemiseen tutkimukseen.

Samoin politiikka ja demokratia sallivat käsittelyn monista näkökulmista. Toisaalta, politiikalla voitiin viitata organisaatioihin ja niissä tapahtuvaan sisäiseen politikointiin tai kansalaisjärjestöihin poliittisina toimijoina. Samaan aikaan julkisten palveluiden tuottaminen ja palautteen antaminen tai julkisten palveluiden saavutettavuus ovat myös kysymyksiä demokratiasta ja politiikasta.  Politiikkaan liittyy olennaisesti myös kommentaarit mitä erilaisimmista policyistä käyttöliittymätutkimuksen alalla.

Edelliset esimerkit jo osoittavat, että aihepiirit ovat hyvin erilaisia ja niillä ei välttämättä ole kovinkaan paljon tekemistä toistensa kanssa. Myös teknologian saatavuuden paraneminen (demokratisoituminen) sekä keskustelu arvoista, yhteiskunnasta ja teknologiasta liittyvät artikkelihaussa demokratiaan ja politiikkaan.

Sosiaalinen media on tietysti osana analyysiä, sen voi nähdä jopa kolmena erilaisena lähestymistapana. Tutkijat ovat keskittyneet poliittiseen viestintään eli tutkineet miten sosiaalinen media toimii esimerkiksi vaalien tai muiden isojen poliittisten tapahtumien alla. Toisaalta, menetelmällisesti painottuneet tutkijat liittyvät politiikkaan ja demokratiaan varsin vähäisesti: poliittinen keskustelu muodostaa heille hyvän aineiston, johon soveltaa uusimpia (koneoppimis)menetelmiään ja miettiä niiden toimivuutta. Lisäksi uutisten valikoivasta lukemisella on selvästi oma yhteisönsä.

Kaiken tämän keskellä on vielä kaksi kirjallisuusryhmää, jotka yhteiskunnan vaikuttamisen kannalta ovat mielenkiintoisia. Jotkut tutkijat ovat miettineet, miten teknologia voisi tukea naapurustoja ja niihin osallistumista. Toisaalta, osa tutkijoista on keskittyneet pohtimaan osallistumisen teknologista tukemista ja käyttöliittymätutkimuksen mahdollisuuksia siinä.

Mitä tästä kaikesta siis voi sanoa? Päänsäryn lisäksi kirjallisuuskatsaus näyttää, että demokratian ja politiikan sateenvarjo on käyttöliittymätutkimuksessa varsin laaja. Tämä ei ole välttämättä yllätys, mutta käsitteiden – kuten ”civic engagement” käyttö eri konteksteissa voi sotkea akateemista yhteisöä ja haitata omalle tutkimukselle keskeisten artikkelin löytämistä.

Olen nyt käymässä läpi tarkemmin kirjallisuutta osallistumisen tukemisesta. Mitä osallistumisen tutkimuksen yhteisö voisi oppia käyttöliittymätutkijoilta ja toisaalta mitä käyttöliittymätutkimusyhteisö voisi hyötyä yhteiskuntatieteestä? Puhun näistä ajatuksista tarkemmin 11.4. maksuttomassa HY+aamu-tilaisuudessa.

 

Kuplista ja niiden ehkäisemisestä

Teksti perustuu minun, Salla-Maaria Laaksosen ja Bryan Semaanin artikkelikäsikirjoitukseen. Koska akateeminen julkaisu on hidasta, päätin kirjoittaa  tiivistetyn version jo nyt blogimuodossa – onhan tuloksia jo esitelty Rajapinta-meetupeissa. Huomautettakoon, että tekstin näkökulma voi olla monelle yhteiskuntatieteitä edustavalle rajapintalaiselle hiukan outo, koska artikkelin pääyleisönä on käyttöliittymätutkijat.

Kuplien ja polarisaation tutkimiselle on pitkät perinteet myös verkkotutkmuksessa. Vuoden 2004 Yhdysvaltojen vaaleja tutkineet Adamic & Glance (2005) havaitsivat, että demokraattiblogaajat linkkaavat enemmän demokraattilähteisiin ja vastaavasti republikaaniblogaajat republikaanilähteisiin. Vastaavia tuloksia on saatu myös esimerkiksi Gilbertin yms. (2009), Jacobsonin ym. (2016) sekä Merazin (2015) tutkimuksissa.

Myös käyttöliittymätutkijat ovat lukeneet samoja artikkeleita ja alkaneet pohtia, kuinka polarisaatiota voisi teknologiaa kehittämällä vähentää. Tutkimusta on tehty varsin runsaasti. Esimerkiksi Park et al. (2009) ja Munson et al. (2009, 2010, 2013) ovat pyrkineet vaihtamaan uutisten suosittelun tukemaan erilaisten näkökulmien esittelyä. Suosittelu voi myös tapahtua suosittelemalla ihmisille muita ihmisiä joiden näkökulmat ovat aiheeseen voisivat olla erilaisia (esimerkiksi Garimella, 2016, 2017). Artikkelissamme kutsumme tätä vallitsevaksi lähestymistavaksi jonka haluamme haastaa (englanniksi common design agenda).

Empiirinen esimerkki: toimisiko vallitseva lähestymistapa?

Tutkimme Suomessa melko tuoretta, selvästi polarisoitunutta ilmiötä: maahanmuuttokeskustelua. Käytämme aineistona viittä maahanmuuttoa kannattavaa ja viittä maahanmuuttoa vastustavaa Facebook-yhteisöä ja niissä tapahtuvaa linkkien jakoa. Ilmiön kuvaamiseksi teimme verkostoanalyysin, jossa sivuston ja ryhmän vällle syntyy yhteys aina, kun kyseisessä ryhmässä on jaettu jokin kyseisen sivuston alla oleva linkki. Kuten verkostokuvastä näkee, aiemman tutkimuksen havaitsema polarisaatioilmiö on havaittavissa tässäkin keskustelussa: ryhmille yhteisiä sivustoja on vain kourallinen eli ryhmien keskelle jäävät verkoston solmut. Valtaosa jaetuista sivustoista on kullekin ryhmälle erillisiä.

network2
Linkit maahanmuuttoa vastustavissa (A1-5) ja kannattavissa (P1-5) ryhmissä. Aineisto on analyysissa täysin anonymisoitu, eli yksittäisiä käyttäjiä ei voi tunnistaa.

Jos seuraisimme aiemman tutkimuksen johtopäätöksiä, kuvaaja voisi johtaa ajatukseen, että ryhmille voisi tehdä hyvää välillä lukea samoja lähteitä ja ehkä löytää yhteistä maaperää tätä kautta. Aineistossa havaittiin, että noin kaksi prosenttia linkeistä ovat täysin samoja sekä kannattavissa että vastustavissa ryhmissä, eli näiden linkkien sivustot ovat mahdollisia yhteisen maaperän löytymiselle.

Päätimme kuitenkin tarkastella hiukan syvemmälle ja analysoida, mitä näiden yhteisten linkkien alla tapahtuu. Linkken alla olevien Facebook-kommenttien analyysi osoittaa, että yhteistä maaperää ei löytynyt. Linkkien alla varsin usein dissattiin hyvinkin julmasti sitä “toista puolta” – niin maahanmuuttoa vastustavissa kuin sitä kannattavissa ryhmissä. Keskustelu oli hyvin etäällä yrityksistä ymmärtää toisten näkökulmia.

Tulos ei välttämättä ole yllättävä ja uusin poliittinen psykologia (esim. Washburn, painossa) kuvaa, kuinka jopa tilastojen lukeminen värittyy lukijan ennakkokäsityksien kautta. Tästä huolimatta  ajatus yhteisen maaperän luominen esimerkiksi jaettujen linkkien avulla on keskeinen oletus vallitsevassa lähestymistavasssa.

Mitä sitten?

Analyysimme perusteella on selvää, että esitetty yksinkertainen eri uutislähteiden suosittelu sellaisenaan ei riitä. Käyttöliittymätutkimuksessa on palattava työpöydän ääreen ja mietittävä, missä määrin teknologialla voidaan välttää yhteiskunnan polarisaatiota ja mitä vaikutuksia sillä lopulta voi olla. Tämä on selkeästi kutsu rajapintaiselle teknologian ja yhteiskuntatieteen välissä olevalle tutkimukselle jossa voitaisiin huomioida niin teknologian syvällinen ymmärtäminen ja jopa teknologiakonstruktiivinen tutkimusote kuin myös yhteiskuntatieteen kautta ymmärrys ihmisen monimutkaisuudesta.

Käyttöliittymäsuunnittelu voisi lähteä rohkeasti kokeilemaan erilaisia lähestymistapoja pelkän mediadieetin laajentamiseen asemesta. Alla on kolme esimerkkiä siitä mitä voitaisiin esimerkiksi tehdä. Ensimmäisessä koetetaan rakentaa suosittelua heikkojen yhteyksien kautta. Toisessa pyritään tuomaan uutisesta jo käytävää keskustelua ja sitä kautta eri näkemyksiä enemmän esille. Kolmannessa tarjotaan uutisten jakajille vihjettä, että samaan aiheeseen on esitetty monta näkökulmaa.

Nämäkään lähestymistavat eivät välttämättä toimi. Pahimmillaan ne voivat vain aiheuttaa enemmän antisosiaalista toimintaa ja pahaa mieltä. Siitä huolimatta olisi tärkeää, että design-vetoinen käyttöliittymätutkimus tutkisi myös vallitsevaa lähestymistapaa haastavia ratkaisuja pohtisi mitä kaikkea voitaisiin tehdä tämän yhteiskunnallisen ongelman ratkaisemiseksi.

 

Algorithmic Systems, Strategic Interaction, and Bureaucracy

What do algorithmic systems and bureaucracy have in common?

I gave on algorithmic systems, strategic interaction, and bureaucracy in the Making Sense of Algorithmic Systems symposium at the Annual Social Psychology Conference in Helsinki on November 18, 2017. The talk lays out early ideas in a domain that is (relatively) new for me. These have been developed in collaboration with Matti Nelimarkka, Jesse Haapoja, Juho Pääkkönen & others – but all mistakes are mine.

To accompany the slides above, here are the key ideas from the talk:

What might post-interaction HCI (Human–Computer Interaction) look like? This is a conceptual shift we are grappling with and trying to make sense of – focusing on direct and observable interaction between one individual and one device feels less and less sufficient (although those interactions, too, remain important). Inspired by Alex Taylor’s thoughts, I like to think of city bike systems as one example that pushes us to think about socio-technical systems and data in new ways.

The more we talk about algorithmic systems, the more we need to ask ourselves to be precise about how exactly they are different from socio-technical systems more broadly. Algorithms, data, artificial intelligence and machine learning are words I’ve heard awfully often this year — and there are problems with how they are used in public (and academic) conversations. There is lots of fear-mongering as well as moments when systems are narrated to hold more power and capabilities than they actually have etc.

One things that seems to be clear is that all things digital and the datafication of everything is attracting a lot of attention in a variety of fields – and critical researchers are already on it, too! There has been a proliferation of critical studies of algorithms and data over the past years. This reading list, collected by Nick Seaver and Tarleton Gillespie is one fantastic place to start from if you’d like to get a glimpse of what is going on. Moreover, we need to keep asking questions about what algorithms are and in what way(s) they are interesting. One important observation underlying the shift to talk about algorithmic systems rather than algorithms on their own is the fact that algorithms don’t exist in isolation. On this account, I recommend Algorithms and their Others, written by Paul Dourish.

Another source of inspiration for me has been this popular piece on the similarities between bureaucracy and algorithmic systems: Rule by Nobody. The analogy does not work 1:1, of course, but there is something to it. And this points to where I think social psychology has an opening to step in and speak up: our field has a lot of expertise on social interactions (also strategic ones) and organizations. These are needed in conversations about algorithmic systems.

For theoretical bases to work on algorithmic systems and strategic interaction, I recommend as a less known book by Erving Goffman, Strategic Interaction. It is a microsociological take of game theory! As I see it, there are (at least) two levels worth thinking about here: First, computer-mediated communication, including questions about how does social interaction play out in the context of algorithmic systems and how do individuals and groups use these systems in strategic ways in interacting with others? Second, human–computer interaction, with questions about how individuals and groups ”game the algorithm” and work around systems that are making it hard for them to accomplish their goals. Here, one might think about Uber drivers strategizing with one another (and against the company and its app) to make more money, but also about the kinds of workarounds that have long been observed as part of the ”normal” repertoire of how people make socio-technical systems work. Goffman’s work gives us tools to consider how individuals can interact with algorithmic systems (and with one another in the presence of these systems) in active, purposeful ways, rather than the dopes fooled by black boxes that popular accounts sometimes make us to be! But we need to be careful in considering what we can take from this work, focused on rich interactional settings (face-to-face).

When it comes to algorithmic systems and bureaucracy, Max Weber’s scholarship is one obvious candidate to work with. I, however, am intrigued to revisit Michel Crozier’s work, especially the book The Bureaucractic Phenomenon, as a resource for thinking about interactions with algorithmic systems. Crozier’s work challenges perspectives that overemphasize the rational organizational structure of bureaucracy, and places emphasis on the strategic efforts of different stakeholders within these organizational systems. Looking at algorithmic systems from this point of view allows for analysing strategic interactions on the system level in a manner that does not do away with the impact of networked systems but also keeps us focused on the possible tensions between the different human actors. Here, too, we need to be careful in applying old tricks to a new show, since as Minna Ruckenstein pointed out in the symposium, the rules in bureaucracies are typically public knowledge whereas this tends not to be the case with proprietary algorithms.

(Finally, while this talk deals with another domain, most of my recent research deals with the so-called sharing economy. If you’d like to hear more, I’d be happy to hear from you. For my academic papers, take a look at my Scholar profile.)

 

Algoritmit uutisissa: ensimmäisiä havaintoja

Minua kiinnosti kuinka suomenkielisessä mediassa puhutaan algoritmeistä, tekoälystä ja koneoppimisesta; tuosta tämän päivän maagisesta taikuudesta. Ensimmäinen yllätykseni on, että ensimmäinen osuma varsin laajassa media-aineistossamme on vuodelta 1994! Noin muutekin hämmennyin kun Aamulehden uutisoinnissa ei ole selkeää tihentymää tai määrän kasvua – uutisointi on ollut erittäin aktiivista jo vuodesta 2000. Yleisradiolla sen sijaan nähdään selvästi, kuinka uutisointi on kasvanut noin 2012 vuodesta erittäin paljon, mutta sitä ennen uutisissa nämä taikasanat ovat olleet enemmänkin sivuhuomioita.

Screenshot 2017-07-12 16.42.20
Aamulehden uutiset missä on sana algoritmi, tekoäly tai koneoppiminen
Screenshot 2017-07-12 16.42.09
Yleisradion uutiset missä on sana algoritmi, tekoäly tai koneoppiminen

 

Havaitsimme Aamulehden olleen poikkeuksellisen aktiivinen algoritmiuutisoinnissaan jo 2000-luvun alkupuolella, kun Yle siitä villiintyi vasta 2010-luvun puolella. Selvää kuitenkin on, että 2010-luvulla algoritmeistä puhutaan merkittävästi enemmän kuin 2000-luvulla.

Aiheiden osalta käytimme aina yhtä trendikästä aihemallinnusta ja uutisaineistosta löytyikin 41 erilaista aihetta – jotka selkeyden takia luokittelimme kymmeneen ryhmään:

  1. Pelit ja peliarvostelut
  2. Tekniikan kehitys, esimerkiksi itsestään ajava auto sekä tekoäly
  3. Elokuvat, viihde ja taide
  4. Kaupalliset palvelut ja niiden algoritmit
  5. Tutkimus algoritmeistä
  6. Tietoturvallisuus
  7. Ohjelmoinnin opetus peruskoulussa
  8. Työllisyys ja työelämän murros
  9. Algoritmien kaupallinen arvo
  10. Algoritmit ja maailmanpolitiikka
timeline.png
Algoritmit uutisissa teemoittain

Havainnoimalla eri teemojen näkyvyyttä mediassa huomaamme, että 2000-luvun alusta tähän päivään on tapahtunut siirtymä viihteistä ja peleistä erityisesti kaupallisten palveluiden algoritmien pohdiskeluun ja esimerkiksi algoritmien vaikutukseen työelämässä.

Temaattinen muutos on tervetullut algoritmisten järjestelmien yhteiskunnallisen merkittävyyden takia, mutta yhteiskuntatieteissä juuri nyt trendikäs kriittinen algoritmitutkimus ei ainakaan tämän analyysin perusteella ollut erityisesti esillä. Ehkäpä peruskoulun ohjelmointiopetuksessa kannattaisi käyttää myös muutama tunti pohtimaan teknologian valtaa eikä vain yrittää oppia ohjelmoinnin alkeita?

Kiitämme Yleisradiota sekä Alma mediaa tutkimukseen käytettyjen aineistojen tuomisesta käyttöömme. Perinteisestihän Suomessa on aina tutkittu Helsingin Sanomia, mutta heidän kautta media-aineistoa ei ole saatavilla.

Varovaisuutta aihemallinnuksen kanssa

Varovaisuutta aihemallinnuksen kanssa

Eräs laskennallisten menetelmien tällä hetkellä suosituin sovellus on aihemallinnus eli topic modeling. Se mahdollistaa laajojen tekstiaineistojen jakamisen ryhmiin ja tällä tavalla “kaukoluvun” aineistosta. Tietenkään sen ei koskaan ole tarkoitus korvata aineiston lähilukua (esim. Grimmer & Stewart, 2013), mihin voi käyttää vaikka etnograafisia menetelmiä.

Eräs valinta aihemallinnuksesta on aiheiden määrän, eli tutummin, k:n valinta. Kirjallisuudessa usein esiintynyt tapa tähän on katsoa muutama eri arvo ja valita näistä selkeiten tulkittavissa oleva. Kritisoin tapaa jo marraskuun Rajapinta-meetupissa. Yksinkertainen koeasetelma näytti kuinka ihmisten mielipide selkeydestä vaihtelee merkittävästi.

Aihemallinnus: tuloksia eri k:n arvoilla
Alustava luokitus aineiston sisällöstä eri aihemallinnuksilla. Katso vain kuva.

Kuvassa näemme kuinka niiden tulkinnat myös tuottavat hiukan erilaisia näkemyksiä aineistoista. (Varoitus: nämä ovat vielä alustavia nimiä, eli en ole vielä itse täysin tyytyväinen näihin.) Olen pyrkinyt ryhmittelemään aineiston niin, että samanteemaiset aiheet olisivat samalla rivillä.

Kuvasta nähdään esimerkiksi kuinka aiheiden määrän lisääntyminen kahteenkymmeneen aiheeseen selkeästi tuo jotain uusia ajatuksia aineistoon, erityisesti alueelisuuden ja globalisaation. Toisaalta aiheena esimerkiksi suomalaisuus on osassa malleissa mukana ja osassa ei, mikä luultavasti kuvaa aihemallinnusprosessissa olevaa satunnaisuutta. Toisaalta 26 ja 30 aiheen mallit tuovat esille taloudellisuuden, perusturvan sekä edustuksellisuuden aiheita.

Aihemallinnuksen soveltajille uutiset ovat valitettavia: en itse pitäisi sopivana ajaa aihemallinnusta teoreettisesti mielekkäällä lukumäärällä tai tutkimalla muutamaa eri aihemäärää. Riskit vääristä tulkinnoista ovat ilmeiset näissä tapauksissa. Sen sijaan pitäisin itse toivottavana aihemäärän valitsemista laskennallisin kriteerein, kuten log-likelihood arvoja käyttämällä. Vaikka näistäkin käydään ritstiriitaista keskustelua, tämä silti vähentäisi tiettyä epävarmutta mikä nykyiseen käytäntöön tulee.

Erityiskiitos Koneen Säätiölle tutkimuksen tukemisesta sekä Tieteen tietotekniikan keskus CSClle laskenta-ajasta.

Hajaantukaa – täällä ei ole mitään nähtävää – algoritmikeskustelusta Suomessa (osa 1)

Screenshot 2017-03-15 11.42.35Algoritmit ovat kuuma aihe paitsi julkisessa keskustelussa, myös kansainvälisessä yhteiskuntatieteellisessä kirjallisuudessa. Pelkästään viime vuoden aikana julkaistiin ainakin kolme erikoisnumeroa, missä käsiteltiin algoritmeja ja niiden roolia yhteiskunnassa. Niin akateemisessa keskustelussa, kuin populaareissakin teksteissä on aistittavissa tietynlainen algoritmien musta magia. Algoritmit eivät ole mitään taikaotuksia jotka hallitsevat maailmaa. Algoritmi on Wikipedian ensimmäisen lauseen mukaan

yksityiskohtainen kuvaus tai ohje siitä, miten tehtävä tai prosessi suoritetaan; jota seuraamalla voidaan ratkaista tietty ongelma.

Maailma on siis täynnä digitaalisia ja vähemmän digitaalisia algoritmeja. Silti pääpaino tuntuu olevan digitaalisissa ympäristössä, kuten Kari Haakanan suomenkielisessä pohdinnassa, vaikka siinä taitavasti tuodaan yhteen jopa klassista teknologian tutkimuksen argumenttejä. On totta, että digitaalisuus todella muuttaa monia ympäröiviä tapahtumia ja algoritmit ovat digitaalisuudessa  keskeisessä roolissa. Vastaavia yksityiskohtaisia kuvauksia ja ohjeita ongelman ratkaisuun on kuitenkin  aina ollut olemassa.

Esimerkiksi Kelan viimeaikainen toimeentulotukisotku monine muotoineen herättää varsin paljon kysymyksiä toimeentulotuen laskennassa käytetystä algoritmista. En tiedä onko taustalla tietojärjestelmän sotkut vai muuten prosessisuo, mutta julkisuuteen nostetut esimerkit – kuten tarve myöntää henkilölle sentin toimeentulotuki maksusitoumusten saamiseksi eteenpäin  – kertovat, että ”algoritmi” ei nyt oikeastaan toimi erityisen järkevästi. Ehkä tässä tullaan keskeiseen huomioon, jota jo Jansson & Erlinngsson (2014) havaitsivat jo aiemmasta tutkimuksesta: haasteena digitaalisissa (sekä ei-digitaalisissa) algoritmeissa on sääntöjen joustamattomuus – usein todellinen maailma ei sopeudu tiukkaan algoritmin ajattelemaan muotoon.

Tässä kohtaa ehkä voi huokaista helpotuksesta, algoritmit ovat kuin todella tarkkoja byrokraatteja. Mutta missä sitten piilee digitalisaation suuri mullistus? Miksi algoritmit ovat niin tapetilla yhteiskuntatieteellisessä kirjallisuudessa ja miksi niistä vouhkotaan (juuri nyt) niin paljon?

On toki totta, että digitaalisten palveluiden myötä me kaikki altistumme mahdollisesti uudenlaiselle, näkymättömälle byrokratialle ja vallankäytölle. Uutta ehkä on, että nyt päätöksentekijänä voi olla joku kasvottomalta näyttävä järjestelmä (noh, en tiedä onko se Kela yhtään parempi esimerkki kasvollisesta järjestelmästä). Mutta, kuten useimmiten, kaiken takaa löytyy kuitenkin ihminen. Algoritmi on aina ihmistoimijoiden tuottama väline, joka toteuttaa ihmistoimijoiden suunnitteleman prosessin. Teknologia-alan demografian perusteella tuo ihmistoiija on melko varmasti valkoinen mies, vaikkei tosin keski-ikäinen. Ja tässä nyt ei ole mitään uutta taivaan alla, valitettavasti. Jyllääväthän valkoiset (keski-ikäiset) miehet monessa muussakin yhteiskunnan päätöksenteon koneessa.

Yhteiskuntatieteellinen mielenkiinto algoritmeihin selittyy niiden tuoreudella. Kyseessä on konkreettinen uusi ”esine”, jota mätkiä tutkimusmenetelmillä ja ajatuksilla. Ja tuoreet aiheet usein herättävät tutkijoiden mielenkiintoa, koska ne ovat uusia ja tuoreita. Toki on tutkimukselle myös tarvetta. Kuten Kitchin (2017) huomauttaa, kriittistä tutkimusta algoritmeista on vähän – varsinkin verrattuna kaikkeen muuhun algoritmitutkimukseen esimerkiksi tietojenkäsittelytieteessä ja insinööritieteissä. Pohdinkin siis,

  • Miten julkisessa keskustelussa käytetään sanaa algoritmi ja mitä sillä oikeastaan tarkoitetaan?
  • Miten perinteiset vallankäytön muodot soveltuvat algoritmien kritisoimsieen ja mitä uutta algoritmit tuovat esimerkiksi perinteiseen byrokratian ajatukseen?
  • Voisimmeko silti koettaa olla nostamasta algoritmia kultaiselle jalustalle ja sen sijaan purkaa mitä oikeastaan tarkoitamme sillä?

Postailen kevään aikana enemmän ajatuksiamme tästä aiheesta ja käsittelemme tematiikkaa myös meetupeissamme.

How to study Big Data epistemology in the social sciences?

In the recent years there has been discussion about whether the rise of Big Data—understood as a collection of methods and practices involved in the analysis of voluminous and rapidly accumulating data with varying structure—calls for a new kind of epistemological understanding of science (e.g. Kitchin 2014; Frické 2015; Floridi 2012; Hey et al. 2009). For instance, Rob Kitchin proclaims that

There is little doubt that the development of Big Data and new data analytics offers the possibility of reframing the epistemology of science, social science and humanities, and such a reframing is already actively taking place across disciplines. (Kitchin 2014, 10.)

This epistemological reframing is due to the idea that Big Data enable a novel form of inquiry called data-driven science, which seeks to generate scientific hypotheses by discovering patterns in vast amounts of data (Kelling et al. 2009, 613-614; Kitchin 2014, 6-7). Data-driven science contrasts with the more traditional ‘knowledge-driven science’, where the hypotheses to be examined are derived from theory rather than data (Kelling et al. 2009, 613). Thus, the argument is that Big Data can reorient the roles that data and theory play in research, and that therefore we should rethink our conception of how scientific knowledge production works.

How, then, should one go about studying Big Data epistemology? How to assess the claim that Big Data enable a novel form of scientific inquiry, which cannot be analysed using traditional epistemological concepts?

In the context of biology, Sabina Leonelli has argued convincingly that in order to critically evaluate the epistemological novelty of Big Data, ‘one needs to analyse the ways in which data are actually disseminated and used to generate knowledge’ (Leonelli 2014, 2). This is quite plausibly so in the context of the social sciences, too. As Kitchin and McArdle (2016) argue, there is no single notion of ‘Big Data’ that would apply across all contexts, and accordingly the ways in which knowledge is generated are likely to vary as well.

Thus it seems sensible that a study of Big Data epistemology in the social sciences should begin with an analysis of the different ways in which Big Data are used in different social scientific contexts. With this purpose in mind, I have collected a number of special issues, sections, and symposia on Big Data that have been published in social scientific journals in the past few years (2013-2016). A review of the different conceptions and uses of Big Data in this collection should give some basis for an assessment of the extent to which the epistemology of the social sciences needs to be reframed.

Below is a list of the collected issues along with short descriptions of their contents.

Special issues, sections, and symposia on Big Data

Political Behavior and Big Data
International Journal of Sociology 46(1), 2016.

The articles in this special issue come from political sociology, cross-national methodology, and computer science. The purpose of the issue is to identify and discuss a set of pressing methodological problems pertaining to the use of Big Data methods in these fields, including the following:

  1. Can Big Data tools be used to describe and explain political behaviour?
  2. How to create a large numerical data set from textual data?
  3. How to deal with the problem of selection in constructing event data with Big Data methods?
  4. How to harmonize large volumes of survey data from distinct sources into one integrated data set?

Big Data in Psychology
Psychological Methods 21(4), 2016.

This special issue provides 10 articles that discuss the benefits of engaging psychological research with Big Data and give instructions for the use of various common research tools. The first four articles offer guides to using Big Data methods and tools in psychological research, giving advice on the use of various APIs and web scraping tools to collect data, as well as on managing and analysing large datasets. The remaining six articles then demonstrate the use of Big Data in psychology, examining the spread of negative emotion on college campuses, models of human declarative memory, methods of theory-guided exploration of empirical data, the uses of statistical learning theory in psychology, and methods for detecting the genetic contributions to cognitive and behavioural phenomena.

Big Data and Media Management
International Journal on Media Management 18(1), 2016.

The stated goal of this special issue is to showcase media management research that employs Big Data, or analyses its use in media management (see the issue introduction, 1-2). The issue includes four research articles, which use Big Data to derive metrics for audience ratings, identify influential factors in terms of news sharing, discuss television use measurement, and examine consumers’ willingness to share personal data.

Special Issue on Big Data
Journal of Business & Economic Statistics 34(4), 2016.

This special issue includes six articles on Big Data finance and seven articles on macroeconomics, high-dimensional econometrics, high-dimensional time series and spatial data. The articles discuss a variety of issues in these fields, developing theory and methods for addressing them as well as investigating applications. (See the issue introduction, 2-3.)

Transformational Issues of Big Data and Analytics in Networked Business
MIS Quarterly 40(4), 2016.

This special issue consists of eleven research articles, which develop a variety of Big Data analysis methods relevant for information systems and business. Included are a data-driven tree based method for assessing interventions in the presence of selection bias; network methods combining sentiment and textual analysis for developing brand advertising; methods for using fine-grained payment data to improve targeted marketing; a study of the causal effectiveness of display advertising; a model to improve resource allocation decisions; a crowd-based method for selecting parts of data as model input; methods for dealing with the scalability and privacy of data sharing; a utility-theory based structural model for mobile app analytics; a predictive modeling method for business process event data; a topic modelling method for measuring the business proximity between firms; and a method to address various wicked problems of societal scale in information systems. (See the issue introduction, 815-817.)

Toward Computational Social Science: Big Data in Digital Environments
The ANNALS of the American Academy of Political and Social Science 659(1), 2015.

The articles in this special issue on Big Data and computational social science come from diverse disciplines, including psychology, epidemiology, political science, and communication studies. The twenty research articles included in the issue are divided into five subsections, titled ‘Perspectives on Computational Social Science’, ‘Computer Coding of Content and Sentiment’, ‘Mapping Online Clusters and Networks’, ‘Examining Social Media Influence’, and ‘Innovations in Computational Social Science’. Each of these sections contains four articles with discussions of the section theme or empirical studies using Big Data.

Big Data, Causal Inference, and Formal Theory: Contradictory Trends in Political Science?
Symposium in Political Science & Politics 48(1), 2015.

The purpose of this symposium is to discuss whether formal theorising, causal inference-making such as experimentation, and the use of Big Data hinder or benefit from each other in political science. The seven articles included in the symposium agree that while there are limits to the extent to which Big Data can help solve problems in theoretical development of causal inference, the three should not be seen as contradictory to each other. In many cases Big Data can supplement the other two.

Section on Big Data
Sociological Methodology 45(1), 2015.

This section focusing on Big Data includes two articles. The first of these develops methods for analysing large-scale administrative datasets to yield econometric measures for urban studies. The second argues for a supervised learning method for analysing unstructured text content that combines machine-based and human-centric approaches.

Big Data, Big Questions
Special section in International Journal of Communication 8, 2014.

This special section includes eight articles which discuss political, ethical, and epistemological issues pertaining to Big Data. The issues discussed in the articles include power asymmetries related to data access; meanings attached to the term ‘Big Data’ in different discourses; the implications for democratic media of the use of Big Data in market advertising; problems pertaining to simplifications and standardizations in large-scale data sets; transparency in Twitter data collection and production; the uses and limitations of spatial Big Data; understanding the practices of the Quantified Self Movement; and the relationship between theory and Big Data.

Big Data in Communication Research
Journal of Communication 64(2), 2014.

This special issue includes eight research articles that use Big Data to address various questions in communication research. The questions addressed include agenda formation in politics; organizational forms of peer production projects; temporal dynamics and content of Twitter messages during elections; the relationship between television broadcasts and online discussion and participation; the acceptance of anti-smoking advertisements; the measurement of political homophily on Twitter; and cross-cultural variation in the use of emoticons.

Symposium on Big Data
Journal of Economic Perspectives 28(2), 2014.

This symposium contains four articles that focus on discussing problems of Big Data analysis in economics and introducing machine learning techniques suitable for addressing them, applications of data mining to analysing high-dimensional data, the uses of data gathered in political campaigns, and privacy issues pertaining to the use of Big Data in economics.

Policy by Numbers: How Big Data is Transforming Security, Governance, and Development
SAIS Review of International Affairs 34(1), 2014.

This issue features essays characterising the role of data in international affairs. The themes discussed range from the effects of selection bias in data collection on policymaking and the potential to use Big Data to estimate slavery, to issues pertaining to the openness of data and data custodianship.

Big Data/Ethnography or Big Data Ethnography
Session in Ethnographic Praxis in Industry Conference 2013.

The EPIC 2013 session on Big Data examines the relationship between Big Data and ethnographic research. The five articles in this session discuss the value of ‘small’ personal data in business, develop tools for analysing qualitative Big Data, argue that Big Data and ethnography should both be viewed as interpretative approaches to analysing human behaviour, examine the discourses and practices surrounding data among technology designers and the health and wellness community, and investigate the use of mobile money using mixed ethnographic methods.

Big Data in Political Science
Political Analysis virtual issue 5, 2013.

This virtual issue is a collection of articles published in Political Analysis between 2005-2013 that showcase the uses of Big Data and methods for analysing it in political science. The uses demonstrated by the articles include the validation of survey reports of voting, validation of online experiments, development of techniques for identifying word usage differences between groups of people, spatial sampling methods based on GPS data, and the measurement of legal significance and doctrinal development in judicial politics. The methods introduced include various Bayesian approaches to Big Data analysis and a general method for statistical inference with network data.

References

Floridi, L. (2012): Big Data and Their Epistemological Challenge. Philosophy & Technology 25(4).

Frické, M. (2015): Big Data and its epistemology. Journal of the Association for Information Science and Technology 66(4).

Hey, T., Tansley, S., and Tolle, K. (Eds.) (2009): The fourth paradigm: Data-intensive scientific discovery. Redmond,WA: Microsoft Research.

Kelling, S., Hochachka, W., Fink, D., Riedewald, M., Caruana, R., Ballard, G., and Hooker, G. (2009): Data-intensive Science: A New Paradigm for Biodiversity Studies. BioScience 59(7).

Kitchin, R. (2014): Big Data, new epistemologies and paradigm shifts. Big Data & Society 1(1).

Kitchin, R. and McArdle, G. (2016): What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets. Big Data & Society 3(1).

Leonelli, S. (2014): What difference does quantity make? On the epistemology of Big Data in biology. Big Data & Society 1(1).