SICSS Helsinki final reflections

The SICSS Helsinki partner site was organized in Helsinki, Finland. We organized it as a two-week institute: the first week was focused on lectures and the second week on group projects. We had a total of 19 participants, an instructor and two TAs. Participants were both from Finland (University of Helsinki, Aalto University, Tampere University of Technology, Turku University) as well as from other European countries (Netherlands, Poland, Germany, Denmark) and rest of the world (India, Turkey). The overall net promoter score (based on the after-course evaluation) was 9 – indicating that the participants considered the course successful and would recommend it to their colleagues. Similarly, the textual feedback suggested that the course was found helpful, engaging and even fun.

This is a final reflection document for the SICSS organized at Helsinki. Similar reflection documents have been written in all SICSS sites.

Group dynamics

We had made a deliberate decision at Helsinki to take the student group to an offsite location for the first week in Tvärminne. Beyond providing a fabulous venue in terms of scenery, outdoor activities and food, it also forced participants to have an on-campus experience for the first week, and socialize. Based on my random observations, this seemed to be happening during the evenings, after the classes. Similarly, we chose to organize after work activities during the second week, which aimed to help to mitigate some of the challenges of lack of residential accommodation and social activities which emerges from that collocation.

What I found challenging and surprising was the need to facilitate group processes during the second week focused on group work. This was not extensive, and rather often groups seemed to manage on their own with this. We were rather pressed for time during the second week, but I’m thinking should we organize dailies similar to agile software production: each team member would speak for a few minutes what they are doing next, what have they done and if they have any major challenges. It might help us to intervene quickly in the group processes facilitation to potential problems and help the groups to manage the time and workload of such a short project. Ideally, over the week, we should move the responsibility of organizing these dailies to the groups.

Something I was disappointed myself was lack of a “global” community of SICSS in the course Slack community. I believe that majority of comments from Helsinki to the public channel came from me or our TAs. Reasons for this may include the time difference between Europe and the US – but maybe also some failures to motivate and incentive this correctly by my side. Maybe next year, the Slack community management could consider establishing smaller channels for particular topics (“communities of practices”) to help people finding smaller venues where they can collaborate and share ideas and comments. Another aspect which I think might be helpful would be to start the online community building way before the event, also content wise. For example, maybe we could create for some of the pre-readings cross-national reading groups or other activities which would encourage them to speak with people from other communities?

Instruction and activities during the first week

Something we spend a lot of time discussing with my TAs (in our debrief after SICSS) was the scope of the instruction. We covered many different things during the first week to provide a general overview of several different method families in computational social science. However, the question was if there should be a more extensive discussion about some methods to ensure that students are able to fully understand them and not just rush through them. It was even proposed that we should really go through some basics of algorithms and computer science for the students.

However, I believe that the current idea of providing a rich overview of different methods is a good choice. It will familiarize students with many opportunities and help them to rethink social research. However, this is a communication challenge: this type of pedagogical choice needs to be explained and articulated. I did a few rounds of talks focused on this topic, but having that mentioned already on day one would be nice. (For example, one student commented in the feedback form that we could have a separate institute on any of these topics – which is true – and thus indicating that we should have been much more clear on the scope and idea behind that scope).

The second aspect which we discussed with my TAs and some participants explicitly commented: the course was a good crash course for people entering computational social science from a social science background, but for people coming from computer sciences and familiar with data science things many aspects of these lectures were rather boring and even useless. We tried to introduce to some activities (ad hoc) refocus on aspects such as teaching qualitative research methods to those not familiar with them or directing them to consider social science theory of their data analysis. These types of aspects could be more baked into the activities material next year (and I’m happy to help editing them towards this goal).

I will discuss video lectures later, but we had a mix of content coming from Helsinki (i.e., I was instructing the content) and some parts we choose to take as video lectures. Something I found difficult when instructing was to find the correct balance between audience participation and me lecturing topics. (To be honest, I actually don’t usually enjoy lecturing that much.) In some of my regular computational social science classes at the University of Helsinki, I usually ask students to read a case study before the class which applies the approach or method we are learning. It serves two aspects: first, we can use that article to develop fruitful discussions with the students and therefore, I don’t need to lecture as much. Second and more importantly, the case studies provide the students with an opportunity to see how “social science theory” (whatever that means) is integrated into the computational work – which I also believe to be a core skill in computational social sciences. If I’m organizing a class like this next year, I would integrate a component like this to balance the me-speaking – students-speaking a bit.

The video lectures

Overall, given the time difference organizing the video lectures was somewhat challenging. For the guest lectures (given at Duke in the evening) we opted to watch them delayed the next day. This reduced some aspects of their liveliness, which many students commented in a somewhat negative tone. We tried to stop these lectures when possible to discuss the lectures in our group (a proposal by one of the students) and this seemed to make them somewhat more engaging. I would recommend the similar idea to other locations which must follow lectures in non-live format.

On the instruction (given at Duke during the morning), we chose some topics where we followed the Duke stream while on other topics I chose to hold the lectures myself. The student feedback suggested that they liked these locally provided lectures more than following live streams from Duke, so I think we made the right decision to develop some instruction on our own. Naturally, the challenge with this is that the quality and content between the institutes may vary somewhat (for example, for text analysis, I chose to start the lecture by speaking about traditional qualitative research methods). However, I think that some quality bonus we had from organizing these locally – such as a high level of interactivity and ability to react to local situations – was worth of this extra investment. In future years, I would examine to replace even more of these lectures when possible and to support on that, produce the materials early enough to allow discussions of them within the instructor community to find potential areas of improvements.

The project week

My only concerns which emerged from the project week related to the group dynamics and lack of proper theoretical reflections during them. I think our group creation process could have been clearer for people; we asked everyone to list topics they find interesting and in collaborative manner, mark which of them they might consider working on. Initial groups were formed based on that and even while I tried to encourage participants to not stay in what seemed like the local optimum, these groupings were set. I think next time, I would force people to change the groups and have similar discussions once or twice to show them the range of opportunities. Furthermore, facilitation of the project management as discussed above may have helped in this. Similarly, on the theoretical reflection, I did ask people to produce a mind map on the first day about theoretical concepts and literature and relationship between those and what they planned to do. Sadly, this itself did not seem to help students enough to engage in this thinking and follow that throughout the week. Again, scaffolding and facilitation may provide helpful in this.

Facilities

While the first week facilities were excellent, the second-week facilities were in our use daily only from 8am to 4pm. This limited some activities and influenced our scheduling. As the summer institute is during summer, many spaces at the University of Helsinki just closed a bit too early. Next year, I would reconsider the second-week location to have a few more hours of shared time. Also, I would have a clear single location for all non-Helsinki visitors and recommend they stay there to reduce some extra coordination efforts.

Negotiating interdisciplinary and cultural boundaries

Something I tried to bring you in fishbowl discussions was the interdisciplinary nature of computational social science and some of the challenges and problems related to this. Sadly, while I enjoyed these discussions, their intention may not have been as clear for participants as it was to me. I have been working across different academic communities for a long time and thus, rather familiar in interdisciplinary collaborations. They take time and often require a lot of flexibility and openness. However, I think that I understand the difficulties of these jumps as I’m so familiar with them and thus, didn’t provide as much support as one could have provided during the two weeks. For example, the fact that I rarely addressed traditional social science theories and methods in the instruction could have helped participants to follow the teaching more and made the classes more engaging to people from computer science background as well.

Similarly, the problem with teaching interdisciplinary groups is their internal heterogeneity in terms of skills. One solution worth of consideration could be to separate the group based on skills or provide even more modular learning activities, where we could assign different participants and groups slight variations of the same tasks to make them more engaging or to allow participants to enter the zone of proximal development. This again would most likely push us to reconsider the role of lectures and instruction.

Finally, people did come from different cultures (not only country wise, but also academic cultures), which meant that their understandings of – among other things – research contributions, the value of group work and ideas of good instruction differed. These were not something major challenges in the project. However, for me better managing this boundary work in the future is critical and having tools and approaches to facilitate students with these is necessary. Sadly, I don’t yet have a clear and good solution to this problem.

Conclusion

The aim of this reflection has been to pinpoint potential areas for improvement, both for myself as well as other SICSS communities and their organization. Therefore, I have aimed to address challenges and problems and discuss them in an extensive manner. However, as said in the beginning, most participants had a positive and engaging experience with this summer institute. The ideas and comments throughout this text may help to further improve the learning and clarify some of the difficulties observed.

We thank the support from Russell Sage Foundation, Alfred P. Sloan Foundation and Helsinki Institute for Information Technology HIIT for their generous financial support.

Bitit ja politiikka: Tervetuloa, laskennallinen politiikan tutkimus

https://www.flickr.com/photos/videocrab/4630988238/
(cc) Kevin Simpson @Flickr

Teksti on julkaistu 8.8. ilmestyneessä Politiikka-lehden numerossa 2/2018 “Bitit ja politiikka” -minisymposiumin johdantona.

Tietoyhteiskuntakehitys ja teknologian muutokset ovat vaikuttaneet yhteiskuntatieteisiin, mukaan lukien politiikan tutkimukseen. Digitaalisissa toimintaympäristöissä tapahtuva poliittinen toiminta näyttäytyy houkuttelevana tutkimuskohteena ja toisaalta esimerkiksi digitaalisten alustojen ja algoritmien tutkimus nostaa esille politiikan perimmäisiä kysymyksiä vallasta (esim. Gillespie 2010; Beer 2017; Neyland ja Möllers 2016). Monet kiinnostavista kysymyksistä kytkeytyvät poliittiseen viestintään: sosiaalinen media on jo haastanut perinteisiä viestinnän portinvartijateorioita (esim. Chadwick 2014, Castells 2007) ja uudet digitaaliset viestintävälineet muuttavat kansalaisosallistumisen tapoja (esim. Bennett ja Segerberg 2013; Juris 2012). Myös marxilainen pohdinta on tehnyt paluun alustatalouden myötä tapahtuneen pääoman jakautumisen seurauksena (esim. Spencer 2018). Jo tämä  tutkimusnäkökulmien lyhyt lista osoittaa, että politiikan tutkimusperinteet ovat tärkeässä roolissa myös nykyisen digitaalisen yhteiskunnan aikana.

Digitaalisuus ei muuta vain tutkimuskohteita, vaan myös aineistoja ja menetelmiä. Digitaaliset jalanjäljet (digital trace data) ja massadata (big data) mahdollistavat uudenlaisten kysymysten esittämisen: aiemmin tutkijoilla ei ollut käytettävissä samankaltaisia yksityiskohtaisia ja laajoja aineistoja ihmisten, organisaatioiden ja liikkeiden toiminnasta, vaan tutkimuksessa on turvauduttu havainnointiin, haastatteluihin, kyselyaineistoihin ja rekisteriaineistoihin. Lazerin ja kumppaneiden (2009) mukaan uudet digitaaliset aineistot ja niitä hyödyntävät laskennalliset menetelmät ovat kuin uusi mikroskooppi yhteiskuntatieteelliseen tutkimukseen. Sekä Rob Kitchin (2014) että danah boyd ja Kate Crawford (2012) kehottavat tutkijoita kuitenkin kriittisesti arvioimaan niitä tapoja, joilla tutkimusta tehdään massadatan aikana ja sitä, kuinka laskennalliset menetelmät muokkaavat yhteiskuntatieteellistä tutkimusta. Hyvä esimerkki peräänkuulutetusta kriittisyydestä on Grimmerin ja Stewartin (2013) artikkeli, jossa he perinteisiin laadullisiin lähestymistapohin verraten pohtivat, miten tekstianalyysiä voidaan toteuttaa esimerkiksi sanojen esiintymisfrekvenssejä tarkastelemalla.

Uusien menetelmien ja aineistojen myötä myös muut tieteenalat ovat innostuneet tarkastelemaan yhteiskuntatieteellisiä kysymyksiä. Justin Grimmerin (2015) mukaan laskennallisten menetelmien avulla yhteiskuntatieteellisiä kysymyksiä käsittelevät yhteiskuntatieteilijöiden lisäksi myös datatietelijät, tietojenkäsittelytietelijät ja fyysikot, usein monitieteisissä ryhmissä. Poikkitieteellinen lähestymistapa helposti tukee tietynlaisia institutionalisoituneita politiikan tutkimuksen muotoja. Se voi aiheuttaa esimerkiksi behavioralistisen politiikan tutkimuksen paluun, koska perspektiivin ajatus teoriapohjaisesta mallintamisesta on yhteensopiva perinteisten laskennallisten tieteen osaajien kanssa — eivätkä he tunne behavioralistista politiikan tutkimusta kohtaan esitettyä ansiokasta kritiikkiä. Toisaalta yhteiskuntatieteilijöiden perinteinen koulutus ei ole sisältänyt opetusta laskennallisista menetelmistä ja niiden käytöstä. Siksi yhteiskuntatieteellisen koulutuksen ulkopuolelta on helppo tarjota näkökantoja ja lähestymistapoja yhteiskuntatieteellisten kysymysten käsittelyyn, vaikka ne yhteiskuntatieteellisin silmin voivat näyttää naiiveilta. Hanna Wallach (2018) muistuttaakin tietojenkäsittelytieteilijöille, että yhteiskuntatiedettä ei synny automaattisesti käyttämällä yhteiskuntatieteellistä aineistoa. Vastaavasti Grimmer (2015) argumentoi, että jos haluamme luoda yhteiskuntatieteellisemmän lähestymistavan laskennalliseen yhteiskuntatieteeseen, on välttämätöntä että yhteiskuntatieteilijät ovat mukana tekemässä ja kehittämässä laskennallisten menetelmien käyttöä.

Tämän symposiumin artikkelit ovat esimerkkejä tällaisesta yhteistyöstä ja menetelmäkehityksestä. Symposium koostuu kolmesta toisiaan täydentävästä tekstistä. Kaksi ensimmäistä esittelevät laskennallisten menetelmien käyttöä politiikan tutkimuksen kentällä, kolmas pohtii laskennallisten menetelmien institutionalisoitumista suomalaiseen politiikan tutkimukseen. Tekstit siis omalta osaltaan vastaavat Grimmerin (2015) ehdotukseen pyrkiä muodostamaan selkeämmin yhteiskuntatieteellisesti painottunut näkökulma laskennallisten menetelmien käyttöön ja kehitykseen.

Salla-Maaria Laaksosen ja Matti Nelimarkan artikkeli tutkii digitaalista vaalijulkisuutta vuoden 2015 eduskuntavaaleissa. Tutkimuksessa laskennallisesti analysoidaan vaalien julkisella agendalla olleet teemat ja yhdistetään saatua tietoa toisaalta poliittisen viestinnän agendatutkimuksen teorioihin ja puolueiden aiheomistajuuden analyysiin. Tuukka Ylä-Anttila, Veikko Eranti ja Anna Kukkonen taas käsittelevät katsauksessaan ilmastonmuutoksesta käytyä julkista keskustelua aihemallinnuksen avulla. Kirjoittajat käyvät läpi menetelmän reunaehtoja ja ehdottavat laadullista validointiprosessia, jonka avulla menetelmää voisi käyttää tekstien kehysanalyysina.

Molemmat tekstit tarkastelevat agendan muodostumista laskennallisesti ja osoittavat samalla, että laskennalliset menetelmät voivat tarjota uusia työkaluja poliittisten argumenttien tutkimiseen ja sellaisiin politiikan ja poliittisen viestinnän polttaviin klassisiin kysymyksiin kuten agendan rakentaminen ja teemojen kehystäminen. Ennen kaikkea menetelmät mahdollistavat tällaisen analyysin tekemisen paljon aiempaa laajemmilla aineistoilla. Molemmat tekstit käyttävät menetelmänä ohjaamatonta koneoppimista, tarkemmin aihemallinnusta, mutta sitovat valitun menetelmän perinteiseen yhteiskuntatieteelliseen kysymyksenasetteluun. Lisäksi tekstit käyvät keskustelua laskennallisia menetelmiä soveltavan yhteiskuntatieteen käsitteiden kanssa — nähdäksemme tämä ei ole vain tarpeellinen, vaan myös välttämätön keskustelu.

Professori Pertti Ahonen luo katsauksessaan näkymän laskennallisten menetelmien institutionalisoitumiseen politiikan tutkimuksessa. Hän keskittyy nimenomaisesti laskennallisiin menetelmiin, joita on kehitetty politiikan tutkimuksen institutionalisoituneiden kysymysten tarkasteluun politiikan tutkijoiden toimesta. Ahonen päätyy toteamaan, että laskennallisten menetelmien käyttö politiikan tutkimuksessa on yhä sivupolku, ja varsinkin suomalaisessa politiikan tutkimuksessa melko vähäistä. Ahonen myös aiheellisesti peräänkuuluttaa syvällisempää keskustelua menetelmien filosofisista taustaoletuksista.

Menetelmäkeskustelua onkin yhä syytä käydä, ja sitä tulisi käydä poikkitieteellisesti. Poikkitieteellisyyden haasteeseen on herätty myös tietojenkäsittelytieteilijöiden joukossa (vrt. Wallach, 2018). Oleellista on, että vaikka laskennallisia menetelmiä voi usein soveltaa suoraan “out of the box”, ne eivät ole taikalaatikoita, jotka ratkaisevat aiemmat tutkimukseen liittyvät ongelmat ja luotettavuuskysymykset; laadullista tarkastelua ja teorialähtöisyyttä tarvitaan yhä rinnalle. Robotti ei vie politiikan tutkijan töitä, kuten Tuukka Ylä-Anttila ja kumppanit toteavat analyysinsa päätteeksi – eikä ehkä datatieteilijäkään.

Matti Nelimarkka & Salla-Maaria Laaksonen
Nelimarkka on tutkijatohtori Tietotekniikan laitoksella ja Tietotekniikan tutkimuslaitos HIIT:llä Aalto-yliopistossa ja opettaja Menetelmäkeskuksessa (Valtiotieteellinen tiedekunta, Helsingin yliopisto). Laaksonen on tutkijatohtori Kuluttajatutkimuskeskuksessa (Valtiotieteellinen tiedekunta, Helsingin yliopisto)
Lähteet

  • Beer, David. 2017. The social power of algorithms. Information, Communication & Society 20:1, 1–13.
  • Bennett, Lance ja Segerberg Alexandra. 2013. The Logic of Connective Action : Digital Media and the Personalization of Contentious Politics. Cambridge: Cambridge University Press.
  • boyd, danah ja Crawford, Kate. 2012. Critical Questions for Big Data. Information, Communication & Society 15:5, 662–679.
  • Castells, Manuel. 2007. Communication, Power and Counter-Power in the Network Society. International Journal of Communication 1:29, 238-266.
  • Chadwick, Andrew. 2013. The Hybrid Media System: Politics and Power. Oxford: Oxford University Press.
  • Gillespie, Tarleton. 2010. The politics of “platforms.” New Media and Society 12:3, 347–364.
  • Grimmer, Justin. 2015. We Are All Social Scientists Now: How Big Data, Machine Learning, and Causal Inference Work Together. PS: Political Science & Politics 48:01, 80–83.
  • Grimmer, Justin ja Stewart, Brandon M. 2013. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis 21:3, 267–297.
  • Juris, Jeffrey. 2012. Reflections on #Occupy Everywhere: Social Media, Public Space, and Emerging Logics of Aggregation. American Ethnologist 39:2, 259–79.
  • Kitchin, Rob. 2014. Big Data, new epistemologies and paradigm shifts. Big Data & Society 1:1, 1–12.
  • Lazer, David, Pentland Alex, Adamic Lada, ym. 2009. Life in the network: the coming age of computational social science. Science 323:5915, 721–723.
  • Neyland, Daniel ja Möllers, Norma. 2016. Algorithmic IF … THEN rules and the conditions and consequences of power. Information, Communication & Society 4462, 1–18.
  • Spencer, David. 2018. Fear and hope in an age of mass automation: debating the future of work. New Technology, Work and Employment 33:1, 1–12.
  • Wallach, Hanna. 2018. Computational social science ≠ computer science + social data. Communications of the ACM 61:3, 42–44.

Ennakkotieto: Rajapintapäivät 2018

rajapintalogo150px01round-reunatRajapintapäivät 2018 järjestetään Espoon Otaniemessä 15.-16.11.2018. Lisätietoja seuraa alkusyksystä, mutta merkitse päivä kalenteriisi jo nyt! // Rajapinta Days 2018 will be organized November 15-16. More details tba, but save the date before heading to summer holidays!

Rajapintapäivät on avoin ja maksuton tapahtuma kaikille, jotka ovat kiinnostuneita yhteiskuntatieteellisestä teknologian tutkimuksesta tai digitaalisten ja laskennalisten menetelmien käytöstä yhteiskuntatieteissä.

Perjantaina 16.11. järjestetään epäkonferenssi (unconference), joka on avoin ja osallistumiseen pohjaava tapahtuma, jonka agenda muodostuu osallistujien yhteistyössä. Kaikki teknologiaa, yhteiskuntaa ja digitaalisia menetelmiä yhdistävät tai kehittävät aiheet ovat erinomaisen tervetulleita mukaan!

Torstaina 15.11. on varattu syvemmin yhteen teemaan keskittyville työpajoille, joita osallistujat saavat myös ehdottaa.

Call for proposals julkaistaan alkusyksystä.

– –

Rajapinta Days 2018, our annual unconference will be organized in Otaniemi, Espoo 15.-16.11.2018. The event is open for all interested in the study of digital and computational social sciences and digital methods.

Friday 16.11. is an unconference day, which builds upon the ideas and proposals of the participants. Thursday 15.11. is reserved for longer workshops.

More details and the call for proposals will be posted in fall.

Mitä on fiksumpi sosiaalisen median analytiikka?

4601859272_4228421089_z
Kuva: (cc) Matt Wynn

Sosiaalisen median analytiikka pyörii yhä enimmäkseen asiasanahakujen ja niiden seurannan ympärillä. Miten kehittyneemmät tekstianalytiikan menetelmät voivat olla hyödyksi ymmärtämään, mistä keskusteluissa on kyse? Mitä reunaehtoja ja epävarmuuksia suurten lupausten automatiikkaan liittyy?

 

Tekesin rahoittama tutkimushankkeemme Smarter Social Media Analytics päättyi toukokuun lopussa. Tutkimushankkeessa pengoimme yli miljardin viestin sisältävää Futusomen somekeskusteluaineistoa automaattisen analytiikan keinoin ja selvitimme, miten keskusteludata rinnastuu muihin aineistoihin, muun muassa Taloustutkimuksen kyselydataan ja SOK:n tuotteiden myyntilukuihin.

Olemme hankkeen aikana testanneet lukuisia erilaisia ohjatun ja ohjaamattoman koneoppimisen muotoja. Lopputuloksena on syntynyt joitakin toimivia tapoja, mutta on tulut kohdattua myös useampi vesiperä. Mutta nepä vasta ovatkin oppimiskokemuksia! Tässä blogikirjoituksessa tiivistettynä hankkeen päätösseminaarissa pitämäni esitys, jossa koottuja oppejamme hankkeen ajalta.

**

1. Fiksumpi sosiaalisen median analytiikka on ihmisen ja koneen yhteistyötä

Sosiaalisen median analytiikkaan – ja tekoälykeskusteluun laajemminkin – liittyy vahvasti laskennallisuuden rationalisointi ja ns. big data -myytti [1]: mikä tahansa numeroiksi muunnettava tieto, jota voidaan käsitellä algoritmisesti, on automaattisesti luotettavaa ja totta. Näin on varsinkin, jos taustalla on isoja aineistoja eli kaikkien himoitsemaa big dataa.

Todellisuudessa kone on yksinään aika tyhmä, ja automaattinenkin analytiikka vaatii yleensä algoritmin opettamista ja yhteistyötä ihmisen kanssa. Opettaminen tapahtuu esimerkiksi luokittelemalla useita satoja tai tuhansia esimerkkiviestejä halutun kysymyksen mukaisesti. Projektissa esimerkiksi koulutimme algoritmia tunnistamaan ydinvoimaan myönteisesti tai kielteisesti suhtautuvia viestejä. Tehtävä ei ole helppo, sillä ihmisten kannat ovat monipolvisia: “Ydinvoima on OK, mutta Rosatom ei.”

Matemaatikko ja data scientist Cathy O’Neil muistuttaa kirjassaan ja Ted Talk -puheenvuorossaan algoritmien vinoutumisesta: algoritmit automatisoivat status quo -tilaa, sillä ne rakentuvat aina historiallisen datan ja sen rakenteen päälle. Maailma ei ole täydellinen, ja sen epätäydellisyys heijastuu myös koneoppimiseen ja tekoälyyn. Siksi rinnalle tarvitaan ihmisajattelua arvioimaan algoritmien oikeellisuutta ja vaikutuksia.

2. Fiksumpi someanalytiikka vaatii mietittyä datan esikäsittelyä

Automaattiseen tekstianalytiikkaan piiloutuu paljon valintoja. Niiden tekeminen alkaa jo aineiston rajauksesta: harvoin on laskentaresursseja tutkija kaikkea saatavilla olevaa dataa, joten se pitää ensimmäiseksi rajata tietyillä hakusanoilla. Millä sanoilla saadaan esimerkiksi haaviin “koko” ydinvoimakeskustelu? Jokaisessa viestissä ei välttämättä mainita ydinvoima-sanaa, vaan tärkeitä avainsanoja voivat olla esimerkiksi voimaloiden sijaintipaikat. Hakusanojen kehittely vaatii usein sekin ihmisasiantuntijan aivoja.

Oleellista on myös ymmärtää käytössä olevan datan mahdolliset rajoitukset ja niiden vaikutukset analyysiin. Esimerkiksi tutkimuskäyttöön luovutettu Suomi24-aineisto on periaatteessa koko aineisto, mutta tietokantavirheen vuoksi aineistosta puuttuu paljon viestejä vuosilta 2004-2005. Tällainen kuoppa näkyy jokaisessa aineistosta piirrettävässä aikajanassa, ja sitä tuijottaessaan tutkija tulee helposti tehneeksi virheellisiä tulkintoja keskusteluaiheen katoamisesta ellei aineiston koostumus ole tiedossa.

Analyysialgoritmit vaativat usein myös aineiston esikäsittelyä. Suomen kielen kohdalla se tarkoittaa esimerkiksi aineiston perusmuotoistamista, joka vie aikaa ja resursseja. Lisäksi tekstimassasta poistetaan tyypillisesti yleisimmät, merkityksettömät sanat eli ns. stopwordit. Niiden poistaminen on kuitenkin samalla myös valinta siitä, mikä on merkityksellistä ja mikä ei. Kiveen hakattuja ohjeita tai yleisesti hyväksyttyä listaa ei kuitenkaan ole olemassa, vaan ratkaisuja tehdään tapauskohtaisesti. Tiedossa on, että  poistettujen sanojen lista vaikuttaa lopulliseen analyysiin, mutta on epäselvää millä tavoin.

3. Fiksumpi sosiaalisen median analytiikka tarvitsee ymmärrystä alustoista ja niiden kulttuureista

Laskemisen ja big datan huumassa on helppoa unohtaa laadullisen analyysin ja kulttuurisen ymmärryksen merkitys. Sosiaalisen median keskusteludata on hyvin kontekstuaalista dataa, jonka syntymiseen vaikuttaa paitsi yhteiskunta ympärillä, myös alustan teknologia ja kyseiselle alustalle muodostunut alakulttuuri. Palstoille voi esimerkiksi syntyä oma slangi ja hyvinkin erikoistunutta sanastoa. Suomen kielen käsittelijä ei välttämättä tunnista verkossa syntyviä uussanoja saatika tuttujen sanojen erikoisia käyttötapoja. Esimerkiksi keppihevonen tarkoittaa toisaalla oikeasti keppihevosta, mutta toisaalla tietynlaista poliittista diskurssia.

Lisäksi automaattisen tekstianalytiikan on osoitettu olevan hyvin kontekstiriippuvaista. Erot tulevat ilmi varsin pienissäkin muutoksissa: Yhdysvalloissa senaatin ylähuoneen puheesta koostuvalla aineistolla koulutettu luokittelualgoritmi ei enää toimikaan alahuoneen puhetta analysoitaessa [2]. Vuoden 2005 ruokapuhetta käsittelevä algoritmi ei pärjää tarpeeksi hyvin vuoden 2015 uuden kielen ja sanaston kanssa.

Myös monet teknologian tuottamat artefaktit muodostuvat hankalaksi automaattiselle analytiikalle. Esimerkiksi monella keskustelufoorumilla viestit lähetetään anonyymisti, jolloin kirjoittajana näkyy “Vierailija”. Kuin vierailija vastaa näihin vierailijan viesteihin lainaamalla niitä, syntyy ketjuja, joissa on hämmentävän monta kertaa mainittu sana vierailija. Lopputuloksena esimerkiksi ohjaamaton aihemallinnus erottaa datasta aiheen, jossa puhutaan kovasti vierailijoista. Sen todellinen olemus ei avaudu kuin esimerkkiviestejä lukemalla.

4. Fiksumpi sosiaalisen median analytiikka on vähemmän mustia laatikoita

Viimeinen ja ehkä tärkein fiksumman sosiaalisen median analytiikan väittämä liittyy analyytikan tekemiseen ja palveluiden ostamiseen. Ala rakentuu tällä hetkellä hämmentävän vahvasti erilaisten mustien laatikoiden ympärille; käytössä on teknologioita ja algoritmeja, jotka on hienosti paketoitu tekoälyksi, mutta todellisuudessa niiden takana ovat samat kontekstiin, kieleen ja validiteettiin riippuvat ongelmat kuin yllä mainituissa esimerkeissä. Monet organisaatiot mittaavat esimerkiksi Facebookista suoraan saatavaa engagement-lukua ymmärtämättä täysin, mistä siinä oikeastaan on kysymys. Analytiikkayrityksen kauppaama keskustelun sentimenttiä kuvaava hieno piirakkadiagrammi ostetaan tyytyväisenä kyseenalaistamatta analyysissa käytettyä algoritmia.

Tämä ei tarkoita, että kaikki tehty automaattinen analytiikka olisi automaattisesti virheellistä. Mutta se tarkoittaa sitä, että analytiikan tekijöiltä vaaditaan lisää avoimuutta käytettyjen menetelmien sekä niiden heikkouksien suhteen sekä sitä, että analytiikan ostajat osaavat kysyä tarkentavia kysymyksiä mustan laatikon sisuksista. Kysymys on lopulta kielenkäytöstä: samalla tavalla kuin lääkärin on osattava selventää diagnoosi potilaalle, on datatieteilijän ja analytiikkayrittäjän osattava selittää analyysin kulku kansankielellä asiakkaalleen. Lääkärivertaus on myös sikäli osuva, että sosiaalisen median keskusteludiagnostiikka on sekään harvoin eksaktia tiedettä, pikemminkin konventioita ja estimaatteja. Pelissä on aina mukana epävarmuuselementti, jonka kanssa on vain elettävä.

Tiivistettynä kolmeen ohjenuoraan: mitä on #smartersome?

  1. Älä aliarvioi ihmistulkintaa. Sille on varattava aikaa, jos aineistosta haluaa liiketoimintahyötyjä.
  2. Vietä päivä etnografina. Selvitä oman toimialasi kannalta oleellisimmat areenat ja tavat mitata keskustelua.
  3. Älä osta mustia laatikoita. Kysy ja selvennä, mitä menetelmät tekevät. Kysy niin kauan, kunnes ymmärrät.

 

**
Lähteet:

[1] Desrosières, A. (2001). How Real Are Statistics? Four Posssible Attitudes. Social Research, 68(2), 339–355.
Beer, D. (2017). Envisioning the power of data analytics. Information, Communication & Society, 21(3), 1–15.
Couldry, N. (2014). The Myth of Big Data. In Schäfer, M. T., & Van Es, K. (Eds.). The datafied society : studying culture through data. Amsterdam: Amsterdam University Press. Retrieved from http://oapen.org/search?identifier=624771
[2] Yu, B., Kaufmann, S., & Diermeier, D. (2008). Classifying Party Affiliation from Political Speech. Journal of Information Technology & Politics, 5(1), 33–48. 

Politiikkaa ja demokratiaa käyttöliittymätutkimuksen näkökulmasta

Politiikka ja demokratia ovat hankalia termejä: ne voivat viitata niin valtiomuotoon, päätöksentekojärjestelmään, yhteisesti sovittuihin sääntöihin, organisaation toimintaan tai vaikka mihin muuhun. Viimeistään nyt on ilmeistä kaikille, että teknologiat vaikuttavat siihen, kuinka demokratia toimii ja politiikka muotoutuu. Ajankohtaisista esimerkeistä mainittakoon presidentti Trumpin sosiaalisen median aktiivisuus ja markkinointi tai kansalaisaloitteiden keräämiseen tarkoitettu verkkoalusta.

Tutkimuskirjallisuudessa teknologian ja demokratian sekä politiikan yhteys on toki ollut esillä jo pitkään. Esimerkiksi Dahlberg (2001) sekä Becker (2001) molemmat kuvittelivat, että teknologia voi parantaa demokraattista osallistumista ja mahdollistaa avoimemman sekä keskustelevamman kansalaisosallistumisen. Toisaalta, esimerkiksi Hindman (2009) on korostanut uuden teknologian mahdollisesti haittaavan demokraattisen yhteiskunnan kehittymistä esimerkiksi hakukoneiden ottaessa vallan informaation välityksestä. Tätä kirjallisuutta on runsaasti ja kolme lähdettä ei tee kunniaa kaikille ajatuksille, joita on esitetty. Minua kiinnosti kuitenkin tarkemmin tietyn tieteenalan – käyttöliittymätutkimuksen – näkökulma tähän tematiikkaan. Käyttöliittymätutkijoilla on keskeinen rooli teknologian ja ihmisten välisen vuorovaikutuksen tutkimisessa, jolloin teknologian ja yhteiskunnan välinen vuorovaikutus olisi varmaan heille kiinnostava aihepiiri.

Yhteensä erilaisilla politiikka- ja demokratia-avainsanoilla artikkeleita löytyi noin 500 kappaletta ACM Digital Librarystä. Tämä voi tuntua paljolta, mutta 1980-luvun alusta syntyneelle yhteisölle artikkelit ovat kuin tippa meressä ja muodostavat noin prosentin käyttöliittymätutkimuksen kokonaisjulkaisuista. Esimerkiksi sosiaalista mediaa on tutkittu noin 1200 artikkelin voimin ja tekstin syöttämistä päälle 300 artikkelin voimin. Systemaattisesti luokittelemalla tunnistin politiikka- ja demokratia-kirjallisuudesta 14 erilaista lähestymistapaa politiikkaan.

Selkeästi isoin ryhmä oli akateemisen yhteisön ylläpitämiseen keskittyneet artikkelit, esimerkiksi työpatjakuvaukset, paneelit ja muut keskustelutilaisuudet. Myös yllättävän monissa esipuheissa mainitaan politiikka sanana, mikä ilmaisee yhteisön mielenkiintoa poliittisia aiheita kohtaan. Ei ole kuitenkaan täysin ilmeistä, johtaako tämä yleinen mielenkiinto akateemiseen tutkimukseen.

Samoin politiikka ja demokratia sallivat käsittelyn monista näkökulmista. Toisaalta, politiikalla voitiin viitata organisaatioihin ja niissä tapahtuvaan sisäiseen politikointiin tai kansalaisjärjestöihin poliittisina toimijoina. Samaan aikaan julkisten palveluiden tuottaminen ja palautteen antaminen tai julkisten palveluiden saavutettavuus ovat myös kysymyksiä demokratiasta ja politiikasta.  Politiikkaan liittyy olennaisesti myös kommentaarit mitä erilaisimmista policyistä käyttöliittymätutkimuksen alalla.

Edelliset esimerkit jo osoittavat, että aihepiirit ovat hyvin erilaisia ja niillä ei välttämättä ole kovinkaan paljon tekemistä toistensa kanssa. Myös teknologian saatavuuden paraneminen (demokratisoituminen) sekä keskustelu arvoista, yhteiskunnasta ja teknologiasta liittyvät artikkelihaussa demokratiaan ja politiikkaan.

Sosiaalinen media on tietysti osana analyysiä, sen voi nähdä jopa kolmena erilaisena lähestymistapana. Tutkijat ovat keskittyneet poliittiseen viestintään eli tutkineet miten sosiaalinen media toimii esimerkiksi vaalien tai muiden isojen poliittisten tapahtumien alla. Toisaalta, menetelmällisesti painottuneet tutkijat liittyvät politiikkaan ja demokratiaan varsin vähäisesti: poliittinen keskustelu muodostaa heille hyvän aineiston, johon soveltaa uusimpia (koneoppimis)menetelmiään ja miettiä niiden toimivuutta. Lisäksi uutisten valikoivasta lukemisella on selvästi oma yhteisönsä.

Kaiken tämän keskellä on vielä kaksi kirjallisuusryhmää, jotka yhteiskunnan vaikuttamisen kannalta ovat mielenkiintoisia. Jotkut tutkijat ovat miettineet, miten teknologia voisi tukea naapurustoja ja niihin osallistumista. Toisaalta, osa tutkijoista on keskittyneet pohtimaan osallistumisen teknologista tukemista ja käyttöliittymätutkimuksen mahdollisuuksia siinä.

Mitä tästä kaikesta siis voi sanoa? Päänsäryn lisäksi kirjallisuuskatsaus näyttää, että demokratian ja politiikan sateenvarjo on käyttöliittymätutkimuksessa varsin laaja. Tämä ei ole välttämättä yllätys, mutta käsitteiden – kuten ”civic engagement” käyttö eri konteksteissa voi sotkea akateemista yhteisöä ja haitata omalle tutkimukselle keskeisten artikkelin löytämistä.

Olen nyt käymässä läpi tarkemmin kirjallisuutta osallistumisen tukemisesta. Mitä osallistumisen tutkimuksen yhteisö voisi oppia käyttöliittymätutkijoilta ja toisaalta mitä käyttöliittymätutkimusyhteisö voisi hyötyä yhteiskuntatieteestä? Puhun näistä ajatuksista tarkemmin 11.4. maksuttomassa HY+aamu-tilaisuudessa.