CFP: Sosiologipäivät: Yhteiskunnan ja menetelmien digitalisaatio

profiiliSosiologipäivät 23.–24.3.2017, Tampereen yliopisto

Yhteiskunnan ja menetelmien digitalisaatio

Koordinaattorit: Veikko Eranti (veikko.eranti@gmail.com), Epp Lauk (epp.lauk@jyu.fi), Erle Rikmann (erle.rikmann@jyu.fi), Tuukka Ylä-Anttila (tuukka.yla.anttila@gmail.com)

Kun ihmiset elävät sosiaalisia elämiään entistä enemmän digitaalisesti ja verkossa, digitaalinen elämä on otettava osaksi kaikkea sosiaalitutkimusta, mutta samalla on tutkittava digitaalisen elämän erityisyyttä: millä kaikilla tavoilla digitaalisuus vaikuttaa sosiaalisuuteen? Miten jokapäiväisen elämän, kulutuksen ja työn digitalisaatio muuttaa elämäntapojamme? Millaisia epätasa-arvon ilmiöitä digitalisaatio tuo mukanaan? Kasvavatko ja mukautuvatko sosiaaliset instituutiot ja kansalaisten kyvyt digitalisaation tahdissa? Tuottaako anonyymi verkostokommunikaatio salaliittoteorioita ja vihapuhetta?

Big data ja computational social science tuovat sosiaalitutkimuksen kentälle muitakin ammattilaisia kuin sosiaalitieteilijöitä. Aineisto- ja menetelmämahdollisuuksien mukana tulee myös ongelmia: miten datatiede ja yhteiskuntatiede saadaan puhumaan keskenään? Vai pitäisikö mieluummin varmistua yhteiskuntatieteilijöiden datataidoista ja datatieteilijöiden yhteiskunnallisista analyysitaidoista? Digitaalisuus hämärtää määrällisten ja laadullisten menetelmien rajaa, kun lisääntyvältä määrälliseltä tutkimukselta vaaditaan entistä enemmän tulosten tulkintaa, kun taas laadulliselta tutkimukselta on alettu vaatia edustavien aineistojen käyttöä ja mitattavuutta. Mitä kvantisosiologi voi tehdä some-aineistolla ja miten kulttuurisosiologi voi käyttää algoritmeja?

Toivotamme tervetulleiksi esitykset yhteiskuntien ja menetelmien digitalisaatiosta suomeksi tai englanniksi! Abstraktien deadline 22.1.

https://www.lyyti.fi/reg/sosiologipaivat2017cfp

Infrastructures and publics – notes from Conference in Siegen

I attended the First Annual Conference 2016 Infrastructures of Publics — Publics of Infrastructures to gain some more insight about the most current thinking in Europe around topics like platforms, society, and algorithms. The University of Siegen organized this conference as they have a new center of excellence around these themes.

Putting it all together

I’ve tried to do some categorization and choose highlights from the conference, but before moving to these smaller bits, I think it’s worth to say something about the whole conference. Throughout the journey of the conference, it became apparent terms such as infrastructures and the public have various meanings. Their focus on infrastructures focused surprisingly lot on physical things to my taste, but give insights e.g., to archeology research (not that far from coding, actually) and enablers for digital interaction. The public was developed primarily from media scholarship.

If I understood it correctly, the center of excellence aims to mingle these two approaches together, to create some ideas how infrastructures and publics interact and shape each other. Sadly, these people seem more prominent in media and culture studies, which I don’t follow that actively, and are publishing less in my favorite venues (CSCW). I do hope that these ideas will move towards the CS people as well, they (we?) tend to forgot these type of research far too often.

Politics and infrastructures

There were several presentations focused on the political aspects of using various tools and infrastructures. So, a huge collection to come here.

Christopher Le Dantec presented his work around using sensors for the public participation. Sadly, I had already read his work in CSCW/CHI domain (e.g. the biking case), and thus the presentation had less interesting novelty aspects. Fundamentally, he has instrumented city bikers to map routes they use and used the data in collaborative design sessions to develop new routes for bikers. He did, however, use a word I have not heard before data literacy. Sadly, there was not a clear definition of this and thus I’m inclined to consider this in similar way computational literacy – just recently under criticism by Matti Tedre and Peter J. Denning.

The more interesting presentation was by M. Six Silberman, a Ph.D. computer science now working in German labor union on new platforms for work. He presented work on Turkopticon, a platform which manages the reputation of those putting out tasks in Mechanical Turk. The idea of this is to balance the current platform by providing those employed through it also insights about their employers. I really like this thinking as it shows how information technology can be used to challenge the society (created by other IT researchers) and try to find balance in platforms.

Finally, Hagen Schölzel presented the concept of communication control, more applied in the business or public relationships literature. The idea behind communication control is actions are planned before hand behind the curtains to shape the communication towards hoped directions; it is precise but does not look like it. Such idea can be applied to various social computing applications, where their interaction is often more strategic than it seems.

Studying the app ecologies

Carolin Gerlitz and Fernando van der Vlist have made an interesting study about the applications types which emerge to support the primarily platform, e.g., in the case of Twitter, all the various Twitter-based applications out there. They concluded that there are at least three application types

  1. strategic engagement, where applications aim to utilize the various forms of data in the app
  2. enhancing functionalities, where applications improve the existing platform functionalities
  3. innovative apps, which add new novel ways to use the application.

These relate further to the grammar of actions, which tell more about how applications are supposed to be used. These relate to the APIs and various rules related to the platform. Finally, the examination fo the extended applications describe the grammar in rather a clear manner.

Archeology and infrastructures

Jürgen Richter presented how the cabinets used by archeologist also have shaped the direction of the research domain as a whole. For example, the early focus to classify objects based on their materials have directed research towards different ages, like stone age. The organization of the cabins has become, almost accidentally, materialized politics. I started to think what similar type of things might exist in fields I’m familiar, and suspect that the overuse of demographic variables to explain phenomena might be such historic relic, passed over generations and still shaping how we examine human activity in various social processes.

Furthermore, he presented an interesting temporal observation: as the archaeology collection is generated over generations, the current curator collaborates with the previous curators and aims to understand their logic of data categorisation and storing. To adapt this idea to more digitalised area, programmers collaborate with all the previous coders with the aim to understand what the heck is going on. Naturally, this collaboration might be difficult: the previous actors might be out of reach, i.e., in another company or even passed away.

I’m grateful for the travel grant from the Doctoral Programme in Computer Science at the University of Helsinki. This post has been crossposted to my personal blog.

Digivaalit 2015 Studia Generaliassa

Syksyn 2016 Studia Generalia eli Helsingin yliopiston perinteikäs yleisöluentosarja starttasi 6. lokakuuta teemalla “Mikä Big Data?”. Puhumassa olivat digitaalisten aineistojen tutkimuksen professori Timo Honkela sekä minä, verkkoviestinnän tutkija Salla-Maaria Laaksonen otsikolla “Digivaalit 2015: Mitä isot digitaaliset aineistot kertovat yhteiskunnasta ja vaikuttamisesta?“.

Illan teemana oli siis erityisesti pohdinta siitä, miten isot digitaaliset aineistot muuttavat humanistisia ja yhteiskuntatieteitä. Omassa esityksessäni kerroin siitä, miten verkkoviestintä jättää erilaisia digitaalisia jälkiä ihmistoiminnasta, ja nämä jäljet antavat uudenlaisia tutkimusmahdollisuuksia myös yhteiskuntatieteiden näkökulmasta. Samalla uudet aineistot vaativat menetelmätaituruutta: tyypillisesti laskennallisen yhteiskuntatieteen asetelmissa tavalla tai toisella isot tekstiaineistot kääntyvät numeroiksi, joita sitten konteksti mielessä pitäen pyritään tulkitsemaan. Samaan aikaan small data on kuitenkin myös merkityksellistä: ilmiöiden syvällinen ymmärtäminen melkeinpä vaatii, että ainakin pieniä osia aineistosta tutkitaan myös perinteisin laadullisin menetelmin. Ihan vielä ihmisten tuottaman teksin äärellä ei uskalla luottaa pelkkään tietokoneeseen.

Ensi viikolla SG:ssä teemana muuten konepuheen matematiikka ja vuorovaikutus!

screen-shot-2016-10-14-at-11-47-48

Digivaalit 2015 – päätösseminaarin materiaali

Päätösseminaarin kalvot

  • Miten ehdokkaat vuorovaikuttivat verkkojulkisuudessa vaalien alla?

  • Miten ehdokkaat vaikuttivat verkkojulkisuuden agendaan?

Posterit

KUTSU: Verkon agendan rakentajat: Digivaalit 2015 -hankkeen päätösseminaari

Digivaalit 2015 on monitieteinen tutkimushanke, jossa on selvitetty isojen datamassojen ja laskennallisen yhteiskuntatieteen menetelmien avulla verkkojulkisuuden vaikutusta median agendaan viime eduskuntavaaleissa.Tervetuloa hankkeen loppuseminaariin

torstaina 7. huhtikuuta klo 16.30-18.30 Päivälehden museolle (Ludviginkatu 2-4, Helsinki).

Niin kutsutun normalisaatiohypoteesin mukaan perinteiset valtarakenteet vaikuttavat myös verkkojulkisuudessa ja sosiaalisessa mediassa. Hankkeessa on selvitetty, miten julkisessa, poliittisessa mediakeskustelussa olevat aiheet määräytyvät ja kuka niitä hallitsee. Voivatko poliitikot vaikuttaa siihen, mistä verkkojulkisuudessa puhutaan? Mitä on vaikuttajuus verkossa?

Seminaarissa esitellään hankkeen keskeisimmät tulokset ja niistä keskustellaan paneelissa, jossa on edustajia politiikasta, mediasta, järjestökentältä ja yliopistomaailmasta. Lisäksi tutkimushankkeessa tehdyt pro gradu -tutkielmat ovat esillä postereina museon tiloissa.

Seminaarin taustakanavina toimivat osallistamisalusta Presemo ja hashtag #digivaalit2015.

OHJELMA

16.30 Tilaisuuden avaus
Yliasiamies Ulla Koski, Helsingin Sanomain Säätiö

16.40 Kuka vaikutti verkkojulkisuuden agendaan eduskuntavaalien alla? Miten ehdokkaat vuorovaikuttivat verkossa keskenään ja kansalaisten kanssa?
Tutkijat Salla-Maaria Laaksonen ja Matti Nelimarkka

17.30 Paneelikeskustelu verkkojulkisuudesta ja politiikasta
Kansanedustaja ja puheenjohtaja Ville Niinistö, Vihreät
Kansanedustaja Hanna Sarkkinen, Vasemmistoliitto
Poliittinen suunnittelija Jussi Salonranta, Kokoomus
Tiedottaja Outi Puukko, Kepa ry.
Politiikan toimittaja Tommi Parkkonen, Iltalehti
Paneelin vetää tutkimusjohtaja Mikko Villi

18.30 Posterinäyttely, vapaata keskustelua ja seurustelua

Vp. viimeistään 31.3.2016 sirpa.ikonen at hssaatio.fi

Tapahtuma Facebookissa.

Tutkimuksen ovat toteuttaneet Tietotekniikan tutkimuslaitos HIIT (Aalto-yliopisto) ja Viestinnän tutkimuskeskus CRC (Helsingin yliopisto) Helsingin Sanomain Säätiön tuella. Hanke on käynnissä 1.1.2015 – 31.3.2016. Hankkeen johtajina toimivat johtaja, principal scientist Marko Turpeinen (HIIT) ja tutkimusjohtaja Mikko Villi (CRC).

Suomi24 Data Science Hackathon – results and afterthoughts

The availability of large data sets and digital material is changing the landscape of research within social sciences and humanities. At the same time, tools and the understanding necessary to utilize such data are often lacking. To tackle this problem, during the last weekend of May we organized a Data Science hackathon around a newly opened data set of Suomi24, the largest online discussion forum in Finland with 1.9 million monthly visitors.

The hackathon was organized by the Citizen Mindscapes research collective, University of Helsinki, Futurice Oy and Aller Media Oy. The event was also part of Nordic Open Data Week and organized in cooperation with Open Knowledge Foundation. The main goal of the event was to allow researchers and coders work together and find new ways of collaborating in the field of data science. We built four different teams consisting of coders and researchers to figure out research problems and create solutions and demos to find their answers.

The dataset used in the event was the almost entire database of Suomi24 online forum discussions ranging from 2001 to 2015, consisting of hundreds of thousands of posts and altogether over 123 million words – a set of data rather impossible to study comprehensively using traditional methods from social science or humanities. Below is a summary of the work and results discovered by the teams.

Rhythms of Human Life in Suomi24

This team was interested in the life cycle of topics in Suomi24. A typical way of studying topics is creating a list of words and querying the data with the words. As one exercise this team tracked the conversations related to jealousy using a list of fifteen related words. They noted that in general the talk about jealousy has increased during the time span of the data. Maybe people were not so used to talk about personal issues online but year by year it is getting more common? Further, the analysis shows that jealousy words peak during January and in May; on the contrary in December discussions on the topic are rare. The team hypothesized that this relates to the well-known phenomenon of finding a summer fling, or the aftermath of all the Christmas parties.

b0hp85WFY244R2vE3HiXcCgd1qz8rSyCIypof7WUGGQ

User Modeling and Micro Level Interactions

This team focused on tracking down different interaction types, recognizing positive/negative discussions, and finding out what words or linguistic features are predicting longer discussion threads. In essence these questions directly relate to a very practical problem of how to create interaction in the online sphere and produce text so that the writer can create engagement. The team decided to simply measure this using the length of the thread as the dependent variable, and using MDL (Minimum Description Length) started searching for the linguistic features that are typical to long or short conversation threads. Limiting the analysis to conversation sections related to babies and society, they identified some discreet words, topics and features of the text that are typical for short and long threads (see table below).

 SHORT LONG
baby section: inconvenient topics (pregnancy, test, symptoms, miscarriage, periods)
society section: god, work, human
baby section: boy, kid, man, girl, mother, movie
society section: Jesus, forest, baptize
asking, short sentences, question mark, words indicating uncertainty (mikä mutta vai jos), colloquialism subordinate clauses, certain conjunctions (että, vaikka, ja), quotations, commas

Forecasting the Economy

Our forecasting team decided to study what words and topics get accentuated during a financial downturn, and to check whether the online discussions could be used as a tool to predict the economical situation. The theoretical idea behind this question comes from John Maynard Keynes’s notion of animal spirits; the instincts, fears and emotions ostensibly influence and guide human behavior, and through that also affect the economic cycle. In order to answer their questions the team obtained additional data sets regarding Finnish GDP and private household consumption from the National Statistics Finland. An index to measure economic uncertainty in the discussions by a set of key words was created using previous studies as a source. An OLS regression model was tested but didn’t have large explanatory power with this data set. Nevertheless, in the next part of the analysis the team  identified the words whose frequencies rose during the months of the crisis years 2008 and 2009. So, if the economical situation is going down, what are the words people use more often? The identified words were: bar, mother-in-law, poem, weapon, bank, electricity, unemployed, lonely, Easter, girlfriend. We do hope these words are not related to a single story!

Cats versus Dogs

Our last team decided to solve the old Internet dilemma of cats versus dogs once and for all. It is well known that Internet belongs to cats. But how about Suomi24? Are cats also the most prominent animals there? Different statistics were extracted from the data, but the situation kept looking bad for cats: dogs are mentioned more often across the data. Also the amount of users who talk about dogs versus cats is larger. A final analysis was conducted to see whether other topics that cat/dog persons talk about actually differ. The results show what cat people do talk more about mathematics, where as dog persons talk about poop. This whole exercise of course was just a humorous example of what to do with the data, and how to twist the data so that a needed answer can be found – it is just a matter of what to measure. A critical point to note is thus that one should be cautious of different black boxes of data analytics: there might have been other statistics behind the ones that you are shown.

Screen Shot 2015-06-03 at 16.02.51

Some afterthoughts

Apart from the fantastic results from the demos the whole event of course was a learning experience. Most important observation is the need for multidisciplinary knowledge and skills within the teams. Without a more general, wider knowledge about the societal phenomena that are affecting the creation of such social big data in the first place it is not possible to draw relevant conclusions. Our hypotheses of the jealousy discussion, for instance, are pure speculations for now, but probably a dwell into social psychology research on the topics would take us lot further.

Also there’s a clear need to better understand the context of the words studied, as their meaning can be heavily dependent on that. Based on the cat vs. dogs analysis, for instance, we can’t say whether the discussions about cats or dogs are actually pro-cats or pro-dogs or are people actually just complaining about the neighbors pet – this would need deeper analysis regarding the context and tone of the messages.

And of course during two days you probably will not learn that many new skills but rather utilize the old ones in a new context. So no two-day magic crash courses to python coding actually happened, but hopefully some broadening of mindscapes for researches both in social and computational sciences!

  • The Suomi24 data set can be explored through FinCLARIN’s Kielipankki Korp-interface. Full data set is available for download for research purposes.
  • Follow Citizen Mindscapes researcher collective in Twitter.
  • Team members: Rhythms team Pasi Karhu, Limae Phuah, Omar El-Bagawy, Jaakko Suominen, Krista Lagus, Minna Ruckenstein; User Modeling team Antti Rauhala, Krista Lagus; Forecasting team Kimmo Nevanlinna, Timo Nikkilä, Joonas Tuhkuri; Cat vs. Dogs group Matti Nelimarkka, Salla-Maaria Laaksonen.

This post is a cross-posting from Opennorcids.org

Digitaalisten ihmistieteiden aamu 12.5. @HY

Digitaaliset ihmistieteet on nimike, jolla kutsutaan uutta mielenkiintoista liikehdintää humanistis-yhteiskuntatieteellisen tutkijayhteisön sisällä. Digitalisoituminen, datan määrän valtava kasvu ja tietokoneiden kehitys ovat tuoneet humanistisen ja yhteiskuntatieteellisen tutkimuksen suuren murroksen kynnykselle.

Tämän murroksen lapsia ovat “digitaalinen humanismi” ja “laskennallinen yhteiskuntatiede”, jotka ovat kansainvälisessä tiedeyhteisössä levinneitä uusia tapoja lähestyä humanistis-yhteiskuntatieteellisiä tutkimusaiheita tietokoneavusteisia menetelmiä hyödyntäen.Humanistisella puolella kyse voi olla esimerkiksi vanhojen kirjatekstien käsittelystä digitaalisen mallintamisen keinoin; yhteiskuntatieteellisen puolella selkeitä esimerkkejä ovat verkkosisältöjen, mediatekstien tai politiikkadokumenttien tietokoneavusteiset analyysit. Rajapinnan kirjoittajat ovat vahvasti mainittujen aiheiden äärellä muun muassa projekteissa Digivaalit 2015 ja Digital Humanities of Public Policy-making.

Helsingin yliopiston Viestinnän tutkimuskeskus (CRC) ja Tieteen tietotekniikan keskus (CSC) järjestävät yhdessä aamukahvitilaisuuden Digitaalisten ihmistieteiden tiimoilta tiistaina 12.5. klo 10.00–12.00  Helsingin yliopiston Tiedekulmassa (Porthania, Yliopistonkatu 3). Tilaisuudessa kuullaan digitaalisten ihmistieteiden eturivin tutkijoiden näkemyksiä digitaalisten aineistojen ja laskennallisten menetelmien käytöstä humanistis-yhteiskuntatieteellisessä tutkimuksessa sekä esitellään kaksi käynnissä olevaa uudenlaista datalähtöistä tutkimusprojektia.

Tervetuloa mukaan! Tarkempi ohjelma täällä. Varmista aamukahvisi ilmoittautumalla tilaisuuteen tällä lomakkeella viimeistään 5.5.2015.