Nyt malttia Kela – digitalisaatio ja julkinen hallinto

computer2bsays2bnoEräs työkaverini huomasi, että Kelakin on lähtenyt mukaan digitalisaatiopöhinään. Kela hienosti kuvaa, kuinka ensimmäisenä sujuvoitetaan prosesseja ja mietiään, miten tämä pitäisi tehdä; vasta tämän jälkeen asia digitalisoidaan. Samaan aikaan tekstistä kuitnekin huokuu tietty usko siihen, että palveluprosessia voi selkeyttää käyttämällä Suomessa tällä hetkellä ah-niin-trendikästä tekoälyä.

Jansson & Erlingsson (2014) kuvaavat sähköisen hallinnon (e-Government) kehittymistä Ruotsissa 1980-luvulta 2000-luvulle. Heidän mielenkiintoisin löydös liittyi useisiin yrityksiin automatisoida ja vähentää julkishallinnon asiakaspalvelun määrää: automaattiset prosessit eivät koskaan osaa tulkita sääntöjä rivien välistä sekä harkita kokonaisuutta. Toki voidaan sanoa, ettei kokonaistilanteen tulkinta ei ole ollut ennekään Kelan vahvuus, joten ehkä tässä ei menetetä mitään. On kuitenkin syytä pitää mielessä Janssonin & Erlingssonin huomio

The fact that technology does not discriminate, but treats everyone as equal, there- fore becomes both its biggest advantage and disadvantage—the former because arbitrariness can be avoided and the latter because various needs, issues, or skills are not captured

Kelan kuvaama visio digitalisaation mahdollisuuksista todellakin tuo esille sitä, että vihdoinkin on mahdollista palvella kaikki samalla tavalla ja hehkutetaan, kuinka tämä on parannus nykytilanteeseen. Esimerkiksi Kelan esimerkki siitä kuinka työttömäksi jäänyttä autetaan tulevaisuudessa näyttää tietyn deterministisyyden lähestymistavassa:

Kone voi hahmottaa esimerkiksi työttömäksi jääneen ihmisen tilannetta jatkokysymyksillä. Tiedätkö, milloin uusi työ on alkamassa? Oletko kiinnostunut koulutuksesta? Haetko työttömyysetuutta?

Tarkoitukseni ei ole kuitenkaan vain nurista tai änkyröidä. Digitalisaatiossa on paljon mahdollisuuksia prosessien yksinkertaistamisessa. Esimerkiksi automaatisoitu veroehdotus on hyvä esimerkki siitä, miten kokonaista ajatusmaailmaa voidaan kääntää kerralla oikeaan suuntaan.

Kelassakin on varmasti prosesseja, joita voi automatisoida erittäin helpposti – esimerkiksi opintotuen myöntäminen sekä lapsilisät. Näissä elämänvaiheissa ei yleensä ole muuten isoa kriisiä missä olisi syytä tarkastella koko yhteiskunnan turvaverkon toimintaa.

Mutta esimerkiksi työttömyydessä – vaikka se perusturvan myöntäminen on helppoa – voisi olla hyväksi samaan aikaan tarkastella elämää laajemmin. Olisiko syytä yrittää hakea toimeentulotukea? Miten Kelan, kunnan ja työvoimaviranomaisten palvelut muodostavat yhtenevän kokonaisuudeen? Näitä kysymyksiä ei sellaisenaan voine jättää automaation varaan, varsinkaan jos se toteutetaan mitä Neyland & Möllers (2016) kutsuivat if-then -säännöillä, eli yksinkertaisiksi “jos tämä pitää paikkansa tee näin”-mallehin. Minun ei ole mitään syytä epäilä, etteikö Kelan pyrkimys olisi tämän kaltaiseen automatisaatioon, koska kaikki ehdot voitaisiin silloin ottaa suoraan Kelan sääntelystä. Tällöin kyseessä on joustamaton ja etukäteen määritelty lähestymistapa sosiaaliturvaan.

Toki tekoälyllä voisi tehdä paljon muutakin! Voidaan mielikuva-harjoituksena miettiä osittain ohjattua tai ohjaamatonta koneoppimista sosiaaliturvan osana: sen sijaan, että säädökset sanoisivat tarkkaan, mitä tukea annetaan ja kuinka paljon, annettaisiin tekoälylle hieman vapautta säädellä itseään. voitaisiin miettiä myös muuta tapaa lähteä (mihin uskon Kelan paljon puhuman tekoälyn perustuvan; siellä tuskin on taustalla esimerkiksi pyrkimystä tehdä laajaa koneoppivaa prosessia, joka korjaisi toimintaansa huomattuaan, mitä vaikutuksia sosiaaliturvapäätöksillä oli. (Ei, en pidä tätä hyvänä ideana; mutta venytellään vähän aivoja siitä, mitä tekoälyllä voisi saada aikaan.)

Tiivistäen: digitalisaatio ei mielestäni ole sellaisenaan hyvä tai paha. Kysymys on enemmän löytää tasapaino automatisoitujen palveluiden ja automatisoimattomien palveluiden kohdalla. Koen, että sosiaaliturva on eräs alue, missä tiukka byrokratia (joko algoritmisesti tai algoritmittomasti) ei välttämättä tuota yhteiskunnan kannalta parasta lopputulosta. Sen sijaan pitäisi pyrkiä arvioimaan kokonaiskuvaa ja rakentaa tukijärjestelmiä tämän kautta – missä ihmiset ovat usein parempia kuin mikään tekoälyllinen prosessi.

 

Smarter Social Media Analytics Underhoodilla

IMG_20170403_161015Vietimme viikon 3.-7.4. SSMA-projektin tutkijaporukkalla startupyritys Hupparihörhön luona. Kenttätyöviikon tarkoituksena oli tutustua Hupparihörhön kehittämään Underhood-palveluun, joka mittaa yritysten mainetta sosiaalisen median dataan perustuen.

Underhood on ollut lähikuukausina uutisissa toteutettuaan Aamulehden kanssa kuntavaalitulosta Tampereella ennustavan mainemittarin. SSMA-projektin puolesta olemme kiinnostuneita tutkimaan, miten sosiaalisen median datalla voidaan mitata ja ennustaa yhteiskunnallisia ilmiöitä. Viikko Underhoodilla kuntavaalien alla tarjosi erinomaisen mahdollisuuden seurata konkreettisen tapauksen ennustamista somedatasta perehtyen samalla Underhoodilaisten näkemyksiin data-analytiikan mahdollisuuksista.

Alkuviikon aikana tutustuimme Underhoodin somedatasta yrityksille laskemaan mainepisteytykseen, joka perustuu kolmelle eri mittarinarvolle. Ensinnäkin Underhood seuraa yritysten näkyvyyttä, joka lasketaan yrityksen Facebook-sivun saamien tykkäysten ja Twitter-seuraajien määristä sekä Facebookin antamasta buzz-arvosta. Toiseksi Underhood mittaa yritysten dialogia someyleisön kanssa, joka määrittyy yrityksen keskimääräisen julkaisumäärän ja julkaisujen saamien kommenttien, tykkäysten sekä jakojen perusteella. Lisäksi dialogimittarin arvoon vaikuttaa yrityksen vastausaste saamiinsa kommentteihin. Kolmanneksi mainepisteytykseen vaikuttavat yrityksen ja yleisön käyttämien sanojen samanlaisuus ja sentimenttianalyysilla saatu yleisön kommenttien sävy. Näkyvyyttä, dialogia ja samanlaisuutta mittaavat pisteet skaalataan Underhoodissa asteikolle 0-10. Näiden pisteiden keskiarvosta lasketaan sitten varsinainen mainepisteytys, jonka arvo on myös asteikolla 0-10.

Underhood-pisteytyksen ja sen tekijöiden tarkastelussa meitä kiinnostaviksi kysymyksiksi nousivat eri mittareiden väliset suhteet ja mittauskohteet: mitä oikeastaan mitataan, kun kerätään dataa esimerkiksi yritysten ja Facebook-tykkääjien yhteisesti käyttämien sanojen määristä? Millä perustein voisimme ajatella, että somedatan pohjalta määritetyt mittarit olisivat luotettava ennustaja ilmiöille, joita koskeva uutisointi ja keskustelu eivät rajoitu sosiaaliseen mediaan?

Underhood-pisteytys on aikaisemmin ennustanut oikein esimerkiksi semifinalistien valinnan Ison-Britannian X-Factor -ohjelmassa, mutta kilpailun voittajan ennuste sen sijaan oli väärä. Yksi selitys tälle on, että ennusteen sotki kansainvälisen sosiaalisen median osoittama kiinnostus: X-Factor UK:ssa äänestäminen oli mahdollista ainoastaan Isossa-Britanniassa, mutta Underhood-pisteytys heijasteli finalistien suosiota kansainvälisellä tasolla. Tämä on esimerkki tapauksesta, jossa sosiaalisen median dataan perustuvat mittarit mittaavat ennusteen kohteesta (pärjääminen Ison-Britannian X-Factorissa) erillistä ilmiötä (suosio kansainvälisessä sosiaalisessa mediassa).

Saimme käyttöömme Underhoodin pisteytyksen perustana olevan datan, joka sisälsi eri mittareiden arvot ja näihin vaikuttavat tekijät päiväkohtaisesti tallennettuina elokuulta 2016 alkaen (dataa yhteensä 3958 yritykseltä ja poliitikolta). Viikon aikana tutkimme datan eri muuttujien riippuvuutta toisistaan ja vertasimme eri mittarinarvojen muutosta muun muassa yritysten toimialan ja liikevaihdon suhteen. Kiinnostavasti havaitsimme, että yritysten ja someyleisön kielenkäytön keskinäinen samanlaisuus korreloi yritysten julkaisujen saaman kommenttimäärän kanssa. Tämä viittaisi siihen, että samanlaisuusmittari saattaa kuvata käytetyn kielen yhteneväisyyden lisäksi myös keskustelun volyymia sosiaalisessa mediassa.

Eri sosiaalisen median dataan perustuvien mittareiden välinen “työnjako” vaikuttaisi olevan yksi merkittävä tekijä ilmiöiden ennusteiden arvioissa. Ennusteen luotettavuuden arvioinnissa on tärkeää tietää, mitä ilmiön puolia eri mittarit mittaavat. Erillisiä mittareita käytettäessä olisi hyvä varmistua, että ilmiön eri puolia mittaavat pisteytykset eivät riipu keskenään samoista tekijöistä, kuten esimerkiksi keskustelun aktiivisuudesta. Näin mittareiden keskinäisen tärkeyden tai painotuksen arviointi selkeytyy ennustetta muodostaessa.

Underhoodin mittareiden keskinäiset painotukset ovat viime päivinä nousseet esille myös Aamulehden mainemittarin antamien kuntavaaliennusteiden yhteydessä. Mittarin ennusteet eivät lopulta vastanneet kuntavaalitulosta Tampereella. Aamulehdessä tämän arvioitiin johtuvan ehdokkaiden suuresta määrästä ja suhteellisesta vaalitavasta, jotka vaikeuttivat mainemittarin antamien lukujen tulkintaa. Underhoodin mukaan mittari taas olisi antanut tarkemman tuloksen, jos Facebook-tykkääjien määrää olisi painotettu nykyistä enemmän.

Keskeisellä sijalla tässäkin tapauksessa on kysymys: minkä ehtojen vallitessa voimme pitää sosiaalisen median suosiota luotettavana ennustajana vaalitulokselle? Underhoodin mainemittarin antamat ennusteet eri ilmiöistä – olivat ne sitten onnistuneita tai eivät – tuottavatkin hyödyllistä aineistoa, jonka avulla tätä ongelmaa voidaan tutkia.

Tule mukaan: ECSCW 2017 Workshop on Nomadic Culture Beyond Work Practices

Tule mukaan loppukesästä ECSCW-konferenssin yhteydessä, osin rajapintalaisin voimin, järjestettävään työryhmään:

ECSCW 2017 Workshop on Nomadic Culture Beyond Work Practices
August 29th, 2017, Sheffield, UK

************ IMPORTANT DATES ************
* Submission deadline: May 26th, 2017
* Notification of acceptance: June 16th, 2017
* Camera ready: June 30th, 2017
* Workshop day: August 29th, 2017

Workshop themes
*********************
Ten years after a successful workshop at ECSCW 2007 on a related theme, we set out to revisit the notion of nomadicity in light of recent research and empirical changes, such as the spread of wireless connectivity, the rise of the so-called ‘gig economy’ and the development of a nomadic culture entangling economic, social, cultural and technological practices enabling and constituting nomadicity.

We seek contributions that will deepen the current understanding of “nomadic culture”, as well as highlight opportunities and challenges for design. Contributors may wish to address a range of issues, including, but not restricted to:

* The transition from micro to macro aspects of nomadicity and from place-making practices to trajectories of nomadic lives;
* The transition from a work-centred to a practice-centred research entailing the work and non-work dimensions of people’s lives, and the negotiation and reconfiguration of work-life boundaries;
* Accounts of nomadic practices as emerging from novel spatial and organisational contexts;
* The range of organisational aspects, motivational factors, personal values and expectations underling the flexibility stemming from this way of working;
* The adoption of methodologies and frameworks to investigate trajectories of nomadic lives in changing organisational, technological and personal circumstances.
* The role of the constellations of technologies and digital platforms in enabling nomadic cultures, but also in creating a potential range of problems/issues to be dealt with;
* An examination of how we might identify those forces, contexts and dynamics that hinder, resist or work against the momentum of ‘nomadic culture’
* The technological, cultural, political and economic rationalities that underpin and legitimise contemporary enactments of nomadic work and the reproduction of nomadic culture;
* Methodological innovations in the study of nomadic culture;
* Analysis of the relationship between greater merging of human and machine and formations of nomadic culture;
* The role of technology as discourse in socially, culturally and ideologically shaping nomadic culture and nomadic worker subjectivity;
* Analysis of how a nomadic culture that emphasises constant technological innovation constitutes the relationships between capitalist goals of competition and profit and individual life aims;
* Explorations of what present and future “Nomadic Culture(s)” might look like, and of the challenges and issues we will be addressing by 2027.

Interdisciplinary participation from designers, developers, sociologists, psychologists, ethnographers, etc. is appreciated. In this way, the workshop will provide an important opportunity for researchers from both academia and industry to share ideas and possibly coordinate their efforts.

Submission format
*********************
Participants interested in contributing with a position paper have to send in a submission (max. 4 pages) containing a brief overview over the key ideas of the presentation and some information on their occupational background. Submissions must adhere to the IRSI series Format

Submission process
***********************
Papers must be submitted directly to the workshop organisers through the e-mail: nomadic-culture-ws@googlegroups.com

Review process
******************
Contributions will be reviewed by the workshop organisers and selected on the basis of their quality, compliance with the workshop theme, and the extent (and diversity) of their backgrounds in terms of fieldwork, design, and technology.

Publication
*************
Position papers accepted and presented in the workshop will be published in the workshop proceedings, which will be edited by the workshop organisers. The proceedings will include the final versions of all accepted contributions, adjusted to satisfy reviewers’ recommendations. It will be published as an issue of the International Reports of Social-Informatics (IIRSI) series from the International Institute of Socio-Informatics (IISI) in Bonn, Germany.

Organisers
*************
Chiara Rossitto, Stockholm University
Aparecido Fabiano Pinatti De Carvalho, University of Siegen
Luigina Ciolfi, Sheffield Hallam University
Airi Lampinen, Stockholm University
Breda Gray, University of Limerick

Contact
*********
E-Mail: nomadic-culture-ws@googlegroups.com

More information can be found at https://nomadicculturews.wordpress.com/

‘Digitalization’ at Sociology Days: does ‘it’ exist and should we study ‘it’?

cropped-freepicto2-2

As part of the Finnish Sociology Days 2017, Rajapinta members Tuukka and Veikko organized a workshop on ‘Digitalization of Societies and Methods’. We wanted to discuss both ‘digitalization’ in terms of societal change and the ‘digitalization of methods’, that is, new digital and computational methodologies and (‘big’) datasets and their possibilities. We wanted to recognize that these are two different viewpoints largely driven by the same societal developments (‘digitalization’).

We believe that all social research must include the digital, but at the same time we must study the specificities of digital life: in what ways does the digital affect the social? How does the digitalization of everyday life, consumption and work affect our ways of life? On the other hand, Big Data and Computational Social Science are shaping social research, but are largely discussed by non-sociologists. With great data and method opportunities come some problems as well: how to get data scientists and social scientists to discuss with and understand each other, or should we rather teach digital methods to sociologists and sociological thinking to data scientists?

Our participants provided some preliminary answers to these questions. Many papers touched on the topic of whether ‘digitalization’ or ‘the digital’ is something that should be studied as is; ie. is ‘the digital’ actually something new or is it just another medium through which the same social structures, patterns and behaviour take place that used to, before ‘digitalization’, so to speak. To some extent, both are true, but in different cases and situations.

Screenshot 2017-03-28 17.01.28

In Veikko Eranti‘s presentation on citizen participation projects online and offline, largely the same things are happening in both media. Getting citizens to participate more has been a primary objective for many Western polities recently, and efforts have included both offline forms of participation (such as participatory budgeting) and online initiatives (such as online citizens’ initiative portals). But both have their caveats: if the initiative is designed to bolster tokenistic representation on everyday matters without true potential for change in any structures, what we get is citizens complaining on mundane issues rather than any meaningful participation(s).

Screenshot 2017-03-28 17.03.58But Mikael Brunila‘s presentation on the online spreading of the Soldiers of Odin extreme right brand (of which there is a great blog post here!) shows that the digital and the physical not always go hand in hand: something digital might not reflect something physical, in terms of political action. Still, online activism is not just ‘clicktivism’: spread of radicalist ideas does have real consequences whether or not they are accompanied by ‘boots on the ground’.

And Zhen Im‘s paper shows that digitalization has some very concrete structural societal effects in the shape of creating widespread economic and cultural precarity which partly explains the surge of the Western populist radical right (a thesis of ‘digitalization losers’ complementing that of ‘globalization losers’).

FTPTySC_Moreover, Salla-Maaria Laaksonen‘s work provides insight into how digital tools offer new methods of mobilization for anti-racist social movements as well, which may use social media to spread a ‘carnevalization’ of a physical event (an anti-immigrant street patrol confronted by humoristic ‘clown patrols’, the ‘Loldiers of Odin’). These tools for social movement mobilization are so concrete that state actors sometimes feel they have to intervene, as Markku Lonkila‘s presentation stated in the case of Russian political opposition and direct state repression that was directed against it. And they are used by a multiplicity of political actors: the logic of hybrid media also allows anti-immigration activists to question ‘official’ truth narratives and produce ‘counterknowledge’, ‘alternative facts’ and ‘post-truth politics’, as analysed by Tuukka Ylä-Anttila, by combining topic modeling with interpretive frame analysis.

Screenshot 2017-03-28 17.10.24

Also in regards to corporate use of individuals’ data, not just political actors, citizens are reacting to perceived misuse of their data and claiming ownership of that data, as Tuukka Lehtiniemi‘s paper assessed. And while studying these partly old, partly new phenomena, there are also new ethical challenges we have to take into account, like Aleksi Hupli argued.

All in all, we hope that both taking into account the digitalization of society and usage of digital methods will become more and more self-evident in sociology rather than a curiosity. While they are distinct phenomena, they are driven by same societal changes, which should be understood in all social research; rather than a separate ‘sub-field’ of digital or computational sociology.

Hajaantukaa – täällä ei ole mitään nähtävää – algoritmikeskustelusta Suomessa (osa 1)

nScreenshot 2017-03-15 11.42.35Algoritmit ovat kuuma aihe paitsi julkisessa keskustelussa, myös kansainvälisessä yhteiskuntatieteellisessä kirjallisuudessa. Pelkästään viime vuoden aikana julkaistiin ainakin kolme erikoisnumeroa, missä käsiteltiin algoritmeja ja niiden roolia yhteiskunnassa. Niin akateemisessa keskustelussa, kuin populaareissakin teksteissä on aistittavissa tietynlainen algoritmien musta magia. Algoritmit eivät ole mitään taikaotuksia jotka hallitsevat maailmaa. Algoritmi on Wikipedian ensimmäisen lauseen mukaan

yksityiskohtainen kuvaus tai ohje siitä, miten tehtävä tai prosessi suoritetaan; jota seuraamalla voidaan ratkaista tietty ongelma.

Maailma on siis täynnä digitaalisia ja vähemmän digitaalisia algoritmeja. Silti pääpaino tuntuu olevan digitaalisissa ympäristössä, kuten Kari Haakanan suomenkielisessä pohdinnassa, vaikka siinä taitavasti tuodaan yhteen jopa klassista teknologian tutkimuksen argumenttejä. On totta, että digitaalisuus todella muuttaa monia ympäröiviä tapahtumia ja algoritmit ovat digitaalisuudessa  keskeisessä roolissa. Vastaavia yksityiskohtaisia kuvauksia ja ohjeita ongelman ratkaisuun on kuitenkin  aina ollut olemassa.

Esimerkiksi Kelan viimeaikainen toimeentulotukisotku monine muotoineen herättää varsin paljon kysymyksiä toimeentulotuen laskennassa käytetystä algoritmista. En tiedä onko taustalla tietojärjestelmän sotkut vai muuten prosessisuo, mutta julkisuuteen nostetut esimerkit – kuten tarve myöntää henkilölle sentin toimeentulotuki maksusitoumusten saamiseksi eteenpäin  – kertovat, että ”algoritmi” ei nyt oikeastaan toimi erityisen järkevästi. Ehkä tässä tullaan keskeiseen huomioon, jota jo Jansson & Erlinngsson (2014) havaitsivat jo aiemmasta tutkimuksesta: haasteena digitaalisissa (sekä ei-digitaalisissa) algoritmeissa on sääntöjen joustamattomuus – usein todellinen maailma ei sopeudu tiukkaan algoritmin ajattelemaan muotoon.

Tässä kohtaa ehkä voi huokaista helpotuksesta, algoritmit ovat kuin todella tarkkoja byrokraatteja. Mutta missä sitten piilee digitalisaation suuri mullistus? Miksi algoritmit ovat niin tapetilla yhteiskuntatieteellisessä kirjallisuudessa ja miksi niistä vouhkotaan (juuri nyt) niin paljon?

On toki totta, että digitaalisten palveluiden myötä me kaikki altistumme mahdollisesti uudenlaiselle, näkymättömälle byrokratialle ja vallankäytölle. Uutta ehkä on, että nyt päätöksentekijänä voi olla joku kasvottomalta näyttävä järjestelmä (noh, en tiedä onko se Kela yhtään parempi esimerkki kasvollisesta järjestelmästä). Mutta, kuten useimmiten, kaiken takaa löytyy kuitenkin ihminen. Algoritmi on aina ihmistoimijoiden tuottama väline, joka toteuttaa ihmistoimijoiden suunnitteleman prosessin. Teknologia-alan demografian perusteella tuo ihmistoiija on melko varmasti valkoinen mies, vaikkei tosin keski-ikäinen. Ja tässä nyt ei ole mitään uutta taivaan alla, valitettavasti. Jyllääväthän valkoiset (keski-ikäiset) miehet monessa muussakin yhteiskunnan päätöksenteon koneessa.

Yhteiskuntatieteellinen mielenkiinto algoritmeihin selittyy niiden tuoreudella. Kyseessä on konkreettinen uusi ”esine”, jota mätkiä tutkimusmenetelmillä ja ajatuksilla. Ja tuoreet aiheet usein herättävät tutkijoiden mielenkiintoa, koska ne ovat uusia ja tuoreita. Toki on tutkimukselle myös tarvetta. Kuten Kitchin (2017) huomauttaa, kriittistä tutkimusta algoritmeista on vähän – varsinkin verrattuna kaikkeen muuhun algoritmitutkimukseen esimerkiksi tietojenkäsittelytieteessä ja insinööritieteissä. Pohdinkin siis,

  • Miten julkisessa keskustelussa käytetään sanaa algoritmi ja mitä sillä oikeastaan tarkoitetaan?
  • Miten perinteiset vallankäytön muodot soveltuvat algoritmien kritisoimsieen ja mitä uutta algoritmit tuovat esimerkiksi perinteiseen byrokratian ajatukseen?
  • Voisimmeko silti koettaa olla nostamasta algoritmia kultaiselle jalustalle ja sen sijaan purkaa mitä oikeastaan tarkoitamme sillä?

Postailen kevään aikana enemmän ajatuksiamme tästä aiheesta ja käsittelemme tematiikkaa myös meetupeissamme.

Call for abstracts: Our data futures

We are organising a one-day workshop in the end of August for researchers working on, or participating in, initiatives that aim for societally sustainable data practices. The workshop is part of the academic programme within the MyData 2017 conference. See the call text below:

Call for abstracts: Our data futures

Datafication, referring to the conversion of life into digital data, generates new societal opportunities alongside power asymmetries. Initiatives, such as MyData, Open mHealth, MIDATA.coop, Hub of All Things, and Open Humans take datafication as a starting point, but try to steer data flows and data practices in a societally more sustainable direction. These initiatives address asymmetries in terms of data usage and distribution, or inadequacies of existing ethical and regulatory frameworks; they push for the rearticulation of concepts such as participation, sharing, governance, or public good.

This workshop of the MyData 2017 conference invites scholars, participating in and studying such data-driven initiatives, to discuss how the capacities of data technology might be harnessed to promote social justice, new forms of agency, political participation, and collective action. We are also interested in research on data activism and how uses of data challenge accepted norms, assumptions and ideological projects. The aim is to promote debate on the ways forms of data are thought to guide, or shape us as we move into data futures, and whether the data initiatives succeed in promoting new communities of producers and users of data.

Workshop: 30.8.2017 at Tallinn University, Tallinn, Estonia
Abstract deadline: 300 words by 2.5.2017

Details are available at http://mydata2017.org/session/our-data-futures/

Workshop organizers:
Minna Ruckenstein, University of Helsinki
Indrek Ibrus, Tallinn University
Tuukka Lehtiniemi, Helsinki Institute for Information Technology

The workshop is arranged in connection with MyData 2017 conference, Helsinki, Finland & Tallinn, Estonia. Information on the academic workshops of the conference is available at http://mydata2017.org/programme/academic/.

How to study Big Data epistemology in the social sciences?

In the recent years there has been discussion about whether the rise of Big Data—understood as a collection of methods and practices involved in the analysis of voluminous and rapidly accumulating data with varying structure—calls for a new kind of epistemological understanding of science (e.g. Kitchin 2014; Frické 2015; Floridi 2012; Hey et al. 2009). For instance, Rob Kitchin proclaims that

There is little doubt that the development of Big Data and new data analytics offers the possibility of reframing the epistemology of science, social science and humanities, and such a reframing is already actively taking place across disciplines. (Kitchin 2014, 10.)

This epistemological reframing is due to the idea that Big Data enable a novel form of inquiry called data-driven science, which seeks to generate scientific hypotheses by discovering patterns in vast amounts of data (Kelling et al. 2009, 613-614; Kitchin 2014, 6-7). Data-driven science contrasts with the more traditional ‘knowledge-driven science’, where the hypotheses to be examined are derived from theory rather than data (Kelling et al. 2009, 613). Thus, the argument is that Big Data can reorient the roles that data and theory play in research, and that therefore we should rethink our conception of how scientific knowledge production works.

How, then, should one go about studying Big Data epistemology? How to assess the claim that Big Data enable a novel form of scientific inquiry, which cannot be analysed using traditional epistemological concepts?

In the context of biology, Sabina Leonelli has argued convincingly that in order to critically evaluate the epistemological novelty of Big Data, ‘one needs to analyse the ways in which data are actually disseminated and used to generate knowledge’ (Leonelli 2014, 2). This is quite plausibly so in the context of the social sciences, too. As Kitchin and McArdle (2016) argue, there is no single notion of ‘Big Data’ that would apply across all contexts, and accordingly the ways in which knowledge is generated are likely to vary as well.

Thus it seems sensible that a study of Big Data epistemology in the social sciences should begin with an analysis of the different ways in which Big Data are used in different social scientific contexts. With this purpose in mind, I have collected a number of special issues, sections, and symposia on Big Data that have been published in social scientific journals in the past few years (2013-2016). A review of the different conceptions and uses of Big Data in this collection should give some basis for an assessment of the extent to which the epistemology of the social sciences needs to be reframed.

Below is a list of the collected issues along with short descriptions of their contents.

Special issues, sections, and symposia on Big Data

Political Behavior and Big Data
International Journal of Sociology 46(1), 2016.

The articles in this special issue come from political sociology, cross-national methodology, and computer science. The purpose of the issue is to identify and discuss a set of pressing methodological problems pertaining to the use of Big Data methods in these fields, including the following:

  1. Can Big Data tools be used to describe and explain political behaviour?
  2. How to create a large numerical data set from textual data?
  3. How to deal with the problem of selection in constructing event data with Big Data methods?
  4. How to harmonize large volumes of survey data from distinct sources into one integrated data set?

Big Data in Psychology
Psychological Methods 21(4), 2016.

This special issue provides 10 articles that discuss the benefits of engaging psychological research with Big Data and give instructions for the use of various common research tools. The first four articles offer guides to using Big Data methods and tools in psychological research, giving advice on the use of various APIs and web scraping tools to collect data, as well as on managing and analysing large datasets. The remaining six articles then demonstrate the use of Big Data in psychology, examining the spread of negative emotion on college campuses, models of human declarative memory, methods of theory-guided exploration of empirical data, the uses of statistical learning theory in psychology, and methods for detecting the genetic contributions to cognitive and behavioural phenomena.

Big Data and Media Management
International Journal on Media Management 18(1), 2016.

The stated goal of this special issue is to showcase media management research that employs Big Data, or analyses its use in media management (see the issue introduction, 1-2). The issue includes four research articles, which use Big Data to derive metrics for audience ratings, identify influential factors in terms of news sharing, discuss television use measurement, and examine consumers’ willingness to share personal data.

Special Issue on Big Data
Journal of Business & Economic Statistics 34(4), 2016.

This special issue includes six articles on Big Data finance and seven articles on macroeconomics, high-dimensional econometrics, high-dimensional time series and spatial data. The articles discuss a variety of issues in these fields, developing theory and methods for addressing them as well as investigating applications. (See the issue introduction, 2-3.)

Transformational Issues of Big Data and Analytics in Networked Business
MIS Quarterly 40(4), 2016.

This special issue consists of eleven research articles, which develop a variety of Big Data analysis methods relevant for information systems and business. Included are a data-driven tree based method for assessing interventions in the presence of selection bias; network methods combining sentiment and textual analysis for developing brand advertising; methods for using fine-grained payment data to improve targeted marketing; a study of the causal effectiveness of display advertising; a model to improve resource allocation decisions; a crowd-based method for selecting parts of data as model input; methods for dealing with the scalability and privacy of data sharing; a utility-theory based structural model for mobile app analytics; a predictive modeling method for business process event data; a topic modelling method for measuring the business proximity between firms; and a method to address various wicked problems of societal scale in information systems. (See the issue introduction, 815-817.)

Toward Computational Social Science: Big Data in Digital Environments
The ANNALS of the American Academy of Political and Social Science 659(1), 2015.

The articles in this special issue on Big Data and computational social science come from diverse disciplines, including psychology, epidemiology, political science, and communication studies. The twenty research articles included in the issue are divided into five subsections, titled ‘Perspectives on Computational Social Science’, ‘Computer Coding of Content and Sentiment’, ‘Mapping Online Clusters and Networks’, ‘Examining Social Media Influence’, and ‘Innovations in Computational Social Science’. Each of these sections contains four articles with discussions of the section theme or empirical studies using Big Data.

Big Data, Causal Inference, and Formal Theory: Contradictory Trends in Political Science?
Symposium in Political Science & Politics 48(1), 2015.

The purpose of this symposium is to discuss whether formal theorising, causal inference-making such as experimentation, and the use of Big Data hinder or benefit from each other in political science. The seven articles included in the symposium agree that while there are limits to the extent to which Big Data can help solve problems in theoretical development of causal inference, the three should not be seen as contradictory to each other. In many cases Big Data can supplement the other two.

Section on Big Data
Sociological Methodology 45(1), 2015.

This section focusing on Big Data includes two articles. The first of these develops methods for analysing large-scale administrative datasets to yield econometric measures for urban studies. The second argues for a supervised learning method for analysing unstructured text content that combines machine-based and human-centric approaches.

Big Data, Big Questions
Special section in International Journal of Communication 8, 2014.

This special section includes eight articles which discuss political, ethical, and epistemological issues pertaining to Big Data. The issues discussed in the articles include power asymmetries related to data access; meanings attached to the term ‘Big Data’ in different discourses; the implications for democratic media of the use of Big Data in market advertising; problems pertaining to simplifications and standardizations in large-scale data sets; transparency in Twitter data collection and production; the uses and limitations of spatial Big Data; understanding the practices of the Quantified Self Movement; and the relationship between theory and Big Data.

Big Data in Communication Research
Journal of Communication 64(2), 2014.

This special issue includes eight research articles that use Big Data to address various questions in communication research. The questions addressed include agenda formation in politics; organizational forms of peer production projects; temporal dynamics and content of Twitter messages during elections; the relationship between television broadcasts and online discussion and participation; the acceptance of anti-smoking advertisements; the measurement of political homophily on Twitter; and cross-cultural variation in the use of emoticons.

Symposium on Big Data
Journal of Economic Perspectives 28(2), 2014.

This symposium contains four articles that focus on discussing problems of Big Data analysis in economics and introducing machine learning techniques suitable for addressing them, applications of data mining to analysing high-dimensional data, the uses of data gathered in political campaigns, and privacy issues pertaining to the use of Big Data in economics.

Policy by Numbers: How Big Data is Transforming Security, Governance, and Development
SAIS Review of International Affairs 34(1), 2014.

This issue features essays characterising the role of data in international affairs. The themes discussed range from the effects of selection bias in data collection on policymaking and the potential to use Big Data to estimate slavery, to issues pertaining to the openness of data and data custodianship.

Big Data/Ethnography or Big Data Ethnography
Session in Ethnographic Praxis in Industry Conference 2013.

The EPIC 2013 session on Big Data examines the relationship between Big Data and ethnographic research. The five articles in this session discuss the value of ‘small’ personal data in business, develop tools for analysing qualitative Big Data, argue that Big Data and ethnography should both be viewed as interpretative approaches to analysing human behaviour, examine the discourses and practices surrounding data among technology designers and the health and wellness community, and investigate the use of mobile money using mixed ethnographic methods.

Big Data in Political Science
Political Analysis virtual issue 5, 2013.

This virtual issue is a collection of articles published in Political Analysis between 2005-2013 that showcase the uses of Big Data and methods for analysing it in political science. The uses demonstrated by the articles include the validation of survey reports of voting, validation of online experiments, development of techniques for identifying word usage differences between groups of people, spatial sampling methods based on GPS data, and the measurement of legal significance and doctrinal development in judicial politics. The methods introduced include various Bayesian approaches to Big Data analysis and a general method for statistical inference with network data.

References

Floridi, L. (2012): Big Data and Their Epistemological Challenge. Philosophy & Technology 25(4).

Frické, M. (2015): Big Data and its epistemology. Journal of the Association for Information Science and Technology 66(4).

Hey, T., Tansley, S., and Tolle, K. (Eds.) (2009): The fourth paradigm: Data-intensive scientific discovery. Redmond,WA: Microsoft Research.

Kelling, S., Hochachka, W., Fink, D., Riedewald, M., Caruana, R., Ballard, G., and Hooker, G. (2009): Data-intensive Science: A New Paradigm for Biodiversity Studies. BioScience 59(7).

Kitchin, R. (2014): Big Data, new epistemologies and paradigm shifts. Big Data & Society 1(1).

Kitchin, R. and McArdle, G. (2016): What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets. Big Data & Society 3(1).

Leonelli, S. (2014): What difference does quantity make? On the epistemology of Big Data in biology. Big Data & Society 1(1).