Bitit ja politiikka: Tervetuloa, laskennallinen politiikan tutkimus

https://www.flickr.com/photos/videocrab/4630988238/
(cc) Kevin Simpson @Flickr

Teksti on julkaistu 8.8. ilmestyneessä Politiikka-lehden numerossa 2/2018 “Bitit ja politiikka” -minisymposiumin johdantona.

Tietoyhteiskuntakehitys ja teknologian muutokset ovat vaikuttaneet yhteiskuntatieteisiin, mukaan lukien politiikan tutkimukseen. Digitaalisissa toimintaympäristöissä tapahtuva poliittinen toiminta näyttäytyy houkuttelevana tutkimuskohteena ja toisaalta esimerkiksi digitaalisten alustojen ja algoritmien tutkimus nostaa esille politiikan perimmäisiä kysymyksiä vallasta (esim. Gillespie 2010; Beer 2017; Neyland ja Möllers 2016). Monet kiinnostavista kysymyksistä kytkeytyvät poliittiseen viestintään: sosiaalinen media on jo haastanut perinteisiä viestinnän portinvartijateorioita (esim. Chadwick 2014, Castells 2007) ja uudet digitaaliset viestintävälineet muuttavat kansalaisosallistumisen tapoja (esim. Bennett ja Segerberg 2013; Juris 2012). Myös marxilainen pohdinta on tehnyt paluun alustatalouden myötä tapahtuneen pääoman jakautumisen seurauksena (esim. Spencer 2018). Jo tämä  tutkimusnäkökulmien lyhyt lista osoittaa, että politiikan tutkimusperinteet ovat tärkeässä roolissa myös nykyisen digitaalisen yhteiskunnan aikana.

Digitaalisuus ei muuta vain tutkimuskohteita, vaan myös aineistoja ja menetelmiä. Digitaaliset jalanjäljet (digital trace data) ja massadata (big data) mahdollistavat uudenlaisten kysymysten esittämisen: aiemmin tutkijoilla ei ollut käytettävissä samankaltaisia yksityiskohtaisia ja laajoja aineistoja ihmisten, organisaatioiden ja liikkeiden toiminnasta, vaan tutkimuksessa on turvauduttu havainnointiin, haastatteluihin, kyselyaineistoihin ja rekisteriaineistoihin. Lazerin ja kumppaneiden (2009) mukaan uudet digitaaliset aineistot ja niitä hyödyntävät laskennalliset menetelmät ovat kuin uusi mikroskooppi yhteiskuntatieteelliseen tutkimukseen. Sekä Rob Kitchin (2014) että danah boyd ja Kate Crawford (2012) kehottavat tutkijoita kuitenkin kriittisesti arvioimaan niitä tapoja, joilla tutkimusta tehdään massadatan aikana ja sitä, kuinka laskennalliset menetelmät muokkaavat yhteiskuntatieteellistä tutkimusta. Hyvä esimerkki peräänkuulutetusta kriittisyydestä on Grimmerin ja Stewartin (2013) artikkeli, jossa he perinteisiin laadullisiin lähestymistapohin verraten pohtivat, miten tekstianalyysiä voidaan toteuttaa esimerkiksi sanojen esiintymisfrekvenssejä tarkastelemalla.

Uusien menetelmien ja aineistojen myötä myös muut tieteenalat ovat innostuneet tarkastelemaan yhteiskuntatieteellisiä kysymyksiä. Justin Grimmerin (2015) mukaan laskennallisten menetelmien avulla yhteiskuntatieteellisiä kysymyksiä käsittelevät yhteiskuntatieteilijöiden lisäksi myös datatietelijät, tietojenkäsittelytietelijät ja fyysikot, usein monitieteisissä ryhmissä. Poikkitieteellinen lähestymistapa helposti tukee tietynlaisia institutionalisoituneita politiikan tutkimuksen muotoja. Se voi aiheuttaa esimerkiksi behavioralistisen politiikan tutkimuksen paluun, koska perspektiivin ajatus teoriapohjaisesta mallintamisesta on yhteensopiva perinteisten laskennallisten tieteen osaajien kanssa — eivätkä he tunne behavioralistista politiikan tutkimusta kohtaan esitettyä ansiokasta kritiikkiä. Toisaalta yhteiskuntatieteilijöiden perinteinen koulutus ei ole sisältänyt opetusta laskennallisista menetelmistä ja niiden käytöstä. Siksi yhteiskuntatieteellisen koulutuksen ulkopuolelta on helppo tarjota näkökantoja ja lähestymistapoja yhteiskuntatieteellisten kysymysten käsittelyyn, vaikka ne yhteiskuntatieteellisin silmin voivat näyttää naiiveilta. Hanna Wallach (2018) muistuttaakin tietojenkäsittelytieteilijöille, että yhteiskuntatiedettä ei synny automaattisesti käyttämällä yhteiskuntatieteellistä aineistoa. Vastaavasti Grimmer (2015) argumentoi, että jos haluamme luoda yhteiskuntatieteellisemmän lähestymistavan laskennalliseen yhteiskuntatieteeseen, on välttämätöntä että yhteiskuntatieteilijät ovat mukana tekemässä ja kehittämässä laskennallisten menetelmien käyttöä.

Tämän symposiumin artikkelit ovat esimerkkejä tällaisesta yhteistyöstä ja menetelmäkehityksestä. Symposium koostuu kolmesta toisiaan täydentävästä tekstistä. Kaksi ensimmäistä esittelevät laskennallisten menetelmien käyttöä politiikan tutkimuksen kentällä, kolmas pohtii laskennallisten menetelmien institutionalisoitumista suomalaiseen politiikan tutkimukseen. Tekstit siis omalta osaltaan vastaavat Grimmerin (2015) ehdotukseen pyrkiä muodostamaan selkeämmin yhteiskuntatieteellisesti painottunut näkökulma laskennallisten menetelmien käyttöön ja kehitykseen.

Salla-Maaria Laaksosen ja Matti Nelimarkan artikkeli tutkii digitaalista vaalijulkisuutta vuoden 2015 eduskuntavaaleissa. Tutkimuksessa laskennallisesti analysoidaan vaalien julkisella agendalla olleet teemat ja yhdistetään saatua tietoa toisaalta poliittisen viestinnän agendatutkimuksen teorioihin ja puolueiden aiheomistajuuden analyysiin. Tuukka Ylä-Anttila, Veikko Eranti ja Anna Kukkonen taas käsittelevät katsauksessaan ilmastonmuutoksesta käytyä julkista keskustelua aihemallinnuksen avulla. Kirjoittajat käyvät läpi menetelmän reunaehtoja ja ehdottavat laadullista validointiprosessia, jonka avulla menetelmää voisi käyttää tekstien kehysanalyysina.

Molemmat tekstit tarkastelevat agendan muodostumista laskennallisesti ja osoittavat samalla, että laskennalliset menetelmät voivat tarjota uusia työkaluja poliittisten argumenttien tutkimiseen ja sellaisiin politiikan ja poliittisen viestinnän polttaviin klassisiin kysymyksiin kuten agendan rakentaminen ja teemojen kehystäminen. Ennen kaikkea menetelmät mahdollistavat tällaisen analyysin tekemisen paljon aiempaa laajemmilla aineistoilla. Molemmat tekstit käyttävät menetelmänä ohjaamatonta koneoppimista, tarkemmin aihemallinnusta, mutta sitovat valitun menetelmän perinteiseen yhteiskuntatieteelliseen kysymyksenasetteluun. Lisäksi tekstit käyvät keskustelua laskennallisia menetelmiä soveltavan yhteiskuntatieteen käsitteiden kanssa — nähdäksemme tämä ei ole vain tarpeellinen, vaan myös välttämätön keskustelu.

Professori Pertti Ahonen luo katsauksessaan näkymän laskennallisten menetelmien institutionalisoitumiseen politiikan tutkimuksessa. Hän keskittyy nimenomaisesti laskennallisiin menetelmiin, joita on kehitetty politiikan tutkimuksen institutionalisoituneiden kysymysten tarkasteluun politiikan tutkijoiden toimesta. Ahonen päätyy toteamaan, että laskennallisten menetelmien käyttö politiikan tutkimuksessa on yhä sivupolku, ja varsinkin suomalaisessa politiikan tutkimuksessa melko vähäistä. Ahonen myös aiheellisesti peräänkuuluttaa syvällisempää keskustelua menetelmien filosofisista taustaoletuksista.

Menetelmäkeskustelua onkin yhä syytä käydä, ja sitä tulisi käydä poikkitieteellisesti. Poikkitieteellisyyden haasteeseen on herätty myös tietojenkäsittelytieteilijöiden joukossa (vrt. Wallach, 2018). Oleellista on, että vaikka laskennallisia menetelmiä voi usein soveltaa suoraan “out of the box”, ne eivät ole taikalaatikoita, jotka ratkaisevat aiemmat tutkimukseen liittyvät ongelmat ja luotettavuuskysymykset; laadullista tarkastelua ja teorialähtöisyyttä tarvitaan yhä rinnalle. Robotti ei vie politiikan tutkijan töitä, kuten Tuukka Ylä-Anttila ja kumppanit toteavat analyysinsa päätteeksi – eikä ehkä datatieteilijäkään.

Matti Nelimarkka & Salla-Maaria Laaksonen
Nelimarkka on tutkijatohtori Tietotekniikan laitoksella ja Tietotekniikan tutkimuslaitos HIIT:llä Aalto-yliopistossa ja opettaja Menetelmäkeskuksessa (Valtiotieteellinen tiedekunta, Helsingin yliopisto). Laaksonen on tutkijatohtori Kuluttajatutkimuskeskuksessa (Valtiotieteellinen tiedekunta, Helsingin yliopisto)
Lähteet

  • Beer, David. 2017. The social power of algorithms. Information, Communication & Society 20:1, 1–13.
  • Bennett, Lance ja Segerberg Alexandra. 2013. The Logic of Connective Action : Digital Media and the Personalization of Contentious Politics. Cambridge: Cambridge University Press.
  • boyd, danah ja Crawford, Kate. 2012. Critical Questions for Big Data. Information, Communication & Society 15:5, 662–679.
  • Castells, Manuel. 2007. Communication, Power and Counter-Power in the Network Society. International Journal of Communication 1:29, 238-266.
  • Chadwick, Andrew. 2013. The Hybrid Media System: Politics and Power. Oxford: Oxford University Press.
  • Gillespie, Tarleton. 2010. The politics of “platforms.” New Media and Society 12:3, 347–364.
  • Grimmer, Justin. 2015. We Are All Social Scientists Now: How Big Data, Machine Learning, and Causal Inference Work Together. PS: Political Science & Politics 48:01, 80–83.
  • Grimmer, Justin ja Stewart, Brandon M. 2013. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis 21:3, 267–297.
  • Juris, Jeffrey. 2012. Reflections on #Occupy Everywhere: Social Media, Public Space, and Emerging Logics of Aggregation. American Ethnologist 39:2, 259–79.
  • Kitchin, Rob. 2014. Big Data, new epistemologies and paradigm shifts. Big Data & Society 1:1, 1–12.
  • Lazer, David, Pentland Alex, Adamic Lada, ym. 2009. Life in the network: the coming age of computational social science. Science 323:5915, 721–723.
  • Neyland, Daniel ja Möllers, Norma. 2016. Algorithmic IF … THEN rules and the conditions and consequences of power. Information, Communication & Society 4462, 1–18.
  • Spencer, David. 2018. Fear and hope in an age of mass automation: debating the future of work. New Technology, Work and Employment 33:1, 1–12.
  • Wallach, Hanna. 2018. Computational social science ≠ computer science + social data. Communications of the ACM 61:3, 42–44.

Mitä on fiksumpi sosiaalisen median analytiikka?

4601859272_4228421089_z
Kuva: (cc) Matt Wynn

Sosiaalisen median analytiikka pyörii yhä enimmäkseen asiasanahakujen ja niiden seurannan ympärillä. Miten kehittyneemmät tekstianalytiikan menetelmät voivat olla hyödyksi ymmärtämään, mistä keskusteluissa on kyse? Mitä reunaehtoja ja epävarmuuksia suurten lupausten automatiikkaan liittyy?

 

Tekesin rahoittama tutkimushankkeemme Smarter Social Media Analytics päättyi toukokuun lopussa. Tutkimushankkeessa pengoimme yli miljardin viestin sisältävää Futusomen somekeskusteluaineistoa automaattisen analytiikan keinoin ja selvitimme, miten keskusteludata rinnastuu muihin aineistoihin, muun muassa Taloustutkimuksen kyselydataan ja SOK:n tuotteiden myyntilukuihin.

Olemme hankkeen aikana testanneet lukuisia erilaisia ohjatun ja ohjaamattoman koneoppimisen muotoja. Lopputuloksena on syntynyt joitakin toimivia tapoja, mutta on tulut kohdattua myös useampi vesiperä. Mutta nepä vasta ovatkin oppimiskokemuksia! Tässä blogikirjoituksessa tiivistettynä hankkeen päätösseminaarissa pitämäni esitys, jossa koottuja oppejamme hankkeen ajalta.

**

1. Fiksumpi sosiaalisen median analytiikka on ihmisen ja koneen yhteistyötä

Sosiaalisen median analytiikkaan – ja tekoälykeskusteluun laajemminkin – liittyy vahvasti laskennallisuuden rationalisointi ja ns. big data -myytti [1]: mikä tahansa numeroiksi muunnettava tieto, jota voidaan käsitellä algoritmisesti, on automaattisesti luotettavaa ja totta. Näin on varsinkin, jos taustalla on isoja aineistoja eli kaikkien himoitsemaa big dataa.

Todellisuudessa kone on yksinään aika tyhmä, ja automaattinenkin analytiikka vaatii yleensä algoritmin opettamista ja yhteistyötä ihmisen kanssa. Opettaminen tapahtuu esimerkiksi luokittelemalla useita satoja tai tuhansia esimerkkiviestejä halutun kysymyksen mukaisesti. Projektissa esimerkiksi koulutimme algoritmia tunnistamaan ydinvoimaan myönteisesti tai kielteisesti suhtautuvia viestejä. Tehtävä ei ole helppo, sillä ihmisten kannat ovat monipolvisia: “Ydinvoima on OK, mutta Rosatom ei.”

Matemaatikko ja data scientist Cathy O’Neil muistuttaa kirjassaan ja Ted Talk -puheenvuorossaan algoritmien vinoutumisesta: algoritmit automatisoivat status quo -tilaa, sillä ne rakentuvat aina historiallisen datan ja sen rakenteen päälle. Maailma ei ole täydellinen, ja sen epätäydellisyys heijastuu myös koneoppimiseen ja tekoälyyn. Siksi rinnalle tarvitaan ihmisajattelua arvioimaan algoritmien oikeellisuutta ja vaikutuksia.

2. Fiksumpi someanalytiikka vaatii mietittyä datan esikäsittelyä

Automaattiseen tekstianalytiikkaan piiloutuu paljon valintoja. Niiden tekeminen alkaa jo aineiston rajauksesta: harvoin on laskentaresursseja tutkija kaikkea saatavilla olevaa dataa, joten se pitää ensimmäiseksi rajata tietyillä hakusanoilla. Millä sanoilla saadaan esimerkiksi haaviin “koko” ydinvoimakeskustelu? Jokaisessa viestissä ei välttämättä mainita ydinvoima-sanaa, vaan tärkeitä avainsanoja voivat olla esimerkiksi voimaloiden sijaintipaikat. Hakusanojen kehittely vaatii usein sekin ihmisasiantuntijan aivoja.

Oleellista on myös ymmärtää käytössä olevan datan mahdolliset rajoitukset ja niiden vaikutukset analyysiin. Esimerkiksi tutkimuskäyttöön luovutettu Suomi24-aineisto on periaatteessa koko aineisto, mutta tietokantavirheen vuoksi aineistosta puuttuu paljon viestejä vuosilta 2004-2005. Tällainen kuoppa näkyy jokaisessa aineistosta piirrettävässä aikajanassa, ja sitä tuijottaessaan tutkija tulee helposti tehneeksi virheellisiä tulkintoja keskusteluaiheen katoamisesta ellei aineiston koostumus ole tiedossa.

Analyysialgoritmit vaativat usein myös aineiston esikäsittelyä. Suomen kielen kohdalla se tarkoittaa esimerkiksi aineiston perusmuotoistamista, joka vie aikaa ja resursseja. Lisäksi tekstimassasta poistetaan tyypillisesti yleisimmät, merkityksettömät sanat eli ns. stopwordit. Niiden poistaminen on kuitenkin samalla myös valinta siitä, mikä on merkityksellistä ja mikä ei. Kiveen hakattuja ohjeita tai yleisesti hyväksyttyä listaa ei kuitenkaan ole olemassa, vaan ratkaisuja tehdään tapauskohtaisesti. Tiedossa on, että  poistettujen sanojen lista vaikuttaa lopulliseen analyysiin, mutta on epäselvää millä tavoin.

3. Fiksumpi sosiaalisen median analytiikka tarvitsee ymmärrystä alustoista ja niiden kulttuureista

Laskemisen ja big datan huumassa on helppoa unohtaa laadullisen analyysin ja kulttuurisen ymmärryksen merkitys. Sosiaalisen median keskusteludata on hyvin kontekstuaalista dataa, jonka syntymiseen vaikuttaa paitsi yhteiskunta ympärillä, myös alustan teknologia ja kyseiselle alustalle muodostunut alakulttuuri. Palstoille voi esimerkiksi syntyä oma slangi ja hyvinkin erikoistunutta sanastoa. Suomen kielen käsittelijä ei välttämättä tunnista verkossa syntyviä uussanoja saatika tuttujen sanojen erikoisia käyttötapoja. Esimerkiksi keppihevonen tarkoittaa toisaalla oikeasti keppihevosta, mutta toisaalla tietynlaista poliittista diskurssia.

Lisäksi automaattisen tekstianalytiikan on osoitettu olevan hyvin kontekstiriippuvaista. Erot tulevat ilmi varsin pienissäkin muutoksissa: Yhdysvalloissa senaatin ylähuoneen puheesta koostuvalla aineistolla koulutettu luokittelualgoritmi ei enää toimikaan alahuoneen puhetta analysoitaessa [2]. Vuoden 2005 ruokapuhetta käsittelevä algoritmi ei pärjää tarpeeksi hyvin vuoden 2015 uuden kielen ja sanaston kanssa.

Myös monet teknologian tuottamat artefaktit muodostuvat hankalaksi automaattiselle analytiikalle. Esimerkiksi monella keskustelufoorumilla viestit lähetetään anonyymisti, jolloin kirjoittajana näkyy “Vierailija”. Kuin vierailija vastaa näihin vierailijan viesteihin lainaamalla niitä, syntyy ketjuja, joissa on hämmentävän monta kertaa mainittu sana vierailija. Lopputuloksena esimerkiksi ohjaamaton aihemallinnus erottaa datasta aiheen, jossa puhutaan kovasti vierailijoista. Sen todellinen olemus ei avaudu kuin esimerkkiviestejä lukemalla.

4. Fiksumpi sosiaalisen median analytiikka on vähemmän mustia laatikoita

Viimeinen ja ehkä tärkein fiksumman sosiaalisen median analytiikan väittämä liittyy analyytikan tekemiseen ja palveluiden ostamiseen. Ala rakentuu tällä hetkellä hämmentävän vahvasti erilaisten mustien laatikoiden ympärille; käytössä on teknologioita ja algoritmeja, jotka on hienosti paketoitu tekoälyksi, mutta todellisuudessa niiden takana ovat samat kontekstiin, kieleen ja validiteettiin riippuvat ongelmat kuin yllä mainituissa esimerkeissä. Monet organisaatiot mittaavat esimerkiksi Facebookista suoraan saatavaa engagement-lukua ymmärtämättä täysin, mistä siinä oikeastaan on kysymys. Analytiikkayrityksen kauppaama keskustelun sentimenttiä kuvaava hieno piirakkadiagrammi ostetaan tyytyväisenä kyseenalaistamatta analyysissa käytettyä algoritmia.

Tämä ei tarkoita, että kaikki tehty automaattinen analytiikka olisi automaattisesti virheellistä. Mutta se tarkoittaa sitä, että analytiikan tekijöiltä vaaditaan lisää avoimuutta käytettyjen menetelmien sekä niiden heikkouksien suhteen sekä sitä, että analytiikan ostajat osaavat kysyä tarkentavia kysymyksiä mustan laatikon sisuksista. Kysymys on lopulta kielenkäytöstä: samalla tavalla kuin lääkärin on osattava selventää diagnoosi potilaalle, on datatieteilijän ja analytiikkayrittäjän osattava selittää analyysin kulku kansankielellä asiakkaalleen. Lääkärivertaus on myös sikäli osuva, että sosiaalisen median keskusteludiagnostiikka on sekään harvoin eksaktia tiedettä, pikemminkin konventioita ja estimaatteja. Pelissä on aina mukana epävarmuuselementti, jonka kanssa on vain elettävä.

Tiivistettynä kolmeen ohjenuoraan: mitä on #smartersome?

  1. Älä aliarvioi ihmistulkintaa. Sille on varattava aikaa, jos aineistosta haluaa liiketoimintahyötyjä.
  2. Vietä päivä etnografina. Selvitä oman toimialasi kannalta oleellisimmat areenat ja tavat mitata keskustelua.
  3. Älä osta mustia laatikoita. Kysy ja selvennä, mitä menetelmät tekevät. Kysy niin kauan, kunnes ymmärrät.

 

**
Lähteet:

[1] Desrosières, A. (2001). How Real Are Statistics? Four Posssible Attitudes. Social Research, 68(2), 339–355.
Beer, D. (2017). Envisioning the power of data analytics. Information, Communication & Society, 21(3), 1–15.
Couldry, N. (2014). The Myth of Big Data. In Schäfer, M. T., & Van Es, K. (Eds.). The datafied society : studying culture through data. Amsterdam: Amsterdam University Press. Retrieved from http://oapen.org/search?identifier=624771
[2] Yu, B., Kaufmann, S., & Diermeier, D. (2008). Classifying Party Affiliation from Political Speech. Journal of Information Technology & Politics, 5(1), 33–48. 

Interventions in Surveillance Capitalism With Personal Data Spaces

This is a cross-post from Blink, the Surveillance & Society blog.

Image: Wikimedia Commons

A rather uniform logic seems to be at work behind the scenes of the digital economy: value creation is based on extracting data about users, turning data into behavioral predictions, and monetizing them through markets users cannot participate in. This logic, called “surveillance capitalism” by Shoshana Zuboff, seems to have become institutionalized as the default mode of operation in the tech industry. To highlight how the flexibility of the market economy made surveillance capitalism possible, Zuboff quotes Thomas Piketty’s Capital in the Twenty-first Century:

“This will continue to be true in the future, no doubt more than ever: new forms of organization and ownership remain to be invented.”

Even if surveillance capitalism is the default, the Piketty quote also indicates that new market forms will continue to be experimented in the margins of the digital economy. Discontentment with how it now works has prompted initiatives from activists and technology developers, promising to empower users to take control of their data. The MyData Global Network is an example of a movement organizing around this idea, and “personal data spaces,” or PDSs, are concrete technologies being developed towards this end.

In practical terms, PDSs are intermediaries that operate between their users and third parties. They offer data storage services coupled with interfaces to manage data flows, and possibilities to run code. With the data portability rulings under the new EU general data protection regulation, the regulatory environment in the EU is taking steps in a direction that favors PDSs. We will likely see more efforts towards development of PDSs in the near future, and therefore it makes sense to ask: what is the intervention that PDSs aim at?

In my recent article in Surveillance & Society, “Personal Data Spaces: An Intervention in Surveillance Capitalism,” I look more closely at three PDSs to analyze their imaginaries of how the digital economy should work. The three exemplars are a “personal cloud server” called Cozy Cloud, a “digital life management” service called Meeco, and a “personal data store” called OpenPDS.

In the imaginaries of PDSs, users reap more of the benefits from data collection and use for themselves. PDSs offer users different entry points in the value creation process: starting from gathering data, into intermediating data between third parties, controlling analytics, and creating and sharing abstract information, such as intentions. Users are to become active subjects in value creation, instead of passive objects of data extraction. Users are envisioned as market participants who selectively redirect and share more, and more nuanced, data based on benefits received.
In this way, the aim of PDSs is to increase the quality and specificity of data that businesses can employ. While they do attempt to intervene in surveillance capitalism, they do not deny or counter its value creation: instead, they offer users access into the existing value creation processes.

For themselves, PDS envision a position of a platform provider that facilitates data exchanges, relying on market mechanisms to ensure that third parties develop beneficial services for users to choose from, once the technology to control data flows is in place.

––

Lehtiniemi, T. (2017). Personal Data Spaces: An Intervention in Surveillance Capitalism? Surveillance & Society, 15(5), 626–639. You can read the article here.

Kuplista ja niiden ehkäisemisestä

Teksti perustuu minun, Salla-Maaria Laaksosen ja Bryan Semaanin artikkelikäsikirjoitukseen. Koska akateeminen julkaisu on hidasta, päätin kirjoittaa  tiivistetyn version jo nyt blogimuodossa – onhan tuloksia jo esitelty Rajapinta-meetupeissa. Huomautettakoon, että tekstin näkökulma voi olla monelle yhteiskuntatieteitä edustavalle rajapintalaiselle hiukan outo, koska artikkelin pääyleisönä on käyttöliittymätutkijat.

Kuplien ja polarisaation tutkimiselle on pitkät perinteet myös verkkotutkmuksessa. Vuoden 2004 Yhdysvaltojen vaaleja tutkineet Adamic & Glance (2005) havaitsivat, että demokraattiblogaajat linkkaavat enemmän demokraattilähteisiin ja vastaavasti republikaaniblogaajat republikaanilähteisiin. Vastaavia tuloksia on saatu myös esimerkiksi Gilbertin yms. (2009), Jacobsonin ym. (2016) sekä Merazin (2015) tutkimuksissa.

Myös käyttöliittymätutkijat ovat lukeneet samoja artikkeleita ja alkaneet pohtia, kuinka polarisaatiota voisi teknologiaa kehittämällä vähentää. Tutkimusta on tehty varsin runsaasti. Esimerkiksi Park et al. (2009) ja Munson et al. (2009, 2010, 2013) ovat pyrkineet vaihtamaan uutisten suosittelun tukemaan erilaisten näkökulmien esittelyä. Suosittelu voi myös tapahtua suosittelemalla ihmisille muita ihmisiä joiden näkökulmat ovat aiheeseen voisivat olla erilaisia (esimerkiksi Garimella, 2016, 2017). Artikkelissamme kutsumme tätä vallitsevaksi lähestymistavaksi jonka haluamme haastaa (englanniksi common design agenda).

Empiirinen esimerkki: toimisiko vallitseva lähestymistapa?

Tutkimme Suomessa melko tuoretta, selvästi polarisoitunutta ilmiötä: maahanmuuttokeskustelua. Käytämme aineistona viittä maahanmuuttoa kannattavaa ja viittä maahanmuuttoa vastustavaa Facebook-yhteisöä ja niissä tapahtuvaa linkkien jakoa. Ilmiön kuvaamiseksi teimme verkostoanalyysin, jossa sivuston ja ryhmän vällle syntyy yhteys aina, kun kyseisessä ryhmässä on jaettu jokin kyseisen sivuston alla oleva linkki. Kuten verkostokuvastä näkee, aiemman tutkimuksen havaitsema polarisaatioilmiö on havaittavissa tässäkin keskustelussa: ryhmille yhteisiä sivustoja on vain kourallinen eli ryhmien keskelle jäävät verkoston solmut. Valtaosa jaetuista sivustoista on kullekin ryhmälle erillisiä.

network2
Linkit maahanmuuttoa vastustavissa (A1-5) ja kannattavissa (P1-5) ryhmissä. Aineisto on analyysissa täysin anonymisoitu, eli yksittäisiä käyttäjiä ei voi tunnistaa.

Jos seuraisimme aiemman tutkimuksen johtopäätöksiä, kuvaaja voisi johtaa ajatukseen, että ryhmille voisi tehdä hyvää välillä lukea samoja lähteitä ja ehkä löytää yhteistä maaperää tätä kautta. Aineistossa havaittiin, että noin kaksi prosenttia linkeistä ovat täysin samoja sekä kannattavissa että vastustavissa ryhmissä, eli näiden linkkien sivustot ovat mahdollisia yhteisen maaperän löytymiselle.

Päätimme kuitenkin tarkastella hiukan syvemmälle ja analysoida, mitä näiden yhteisten linkkien alla tapahtuu. Linkken alla olevien Facebook-kommenttien analyysi osoittaa, että yhteistä maaperää ei löytynyt. Linkkien alla varsin usein dissattiin hyvinkin julmasti sitä “toista puolta” – niin maahanmuuttoa vastustavissa kuin sitä kannattavissa ryhmissä. Keskustelu oli hyvin etäällä yrityksistä ymmärtää toisten näkökulmia.

Tulos ei välttämättä ole yllättävä ja uusin poliittinen psykologia (esim. Washburn, painossa) kuvaa, kuinka jopa tilastojen lukeminen värittyy lukijan ennakkokäsityksien kautta. Tästä huolimatta  ajatus yhteisen maaperän luominen esimerkiksi jaettujen linkkien avulla on keskeinen oletus vallitsevassa lähestymistavasssa.

Mitä sitten?

Analyysimme perusteella on selvää, että esitetty yksinkertainen eri uutislähteiden suosittelu sellaisenaan ei riitä. Käyttöliittymätutkimuksessa on palattava työpöydän ääreen ja mietittävä, missä määrin teknologialla voidaan välttää yhteiskunnan polarisaatiota ja mitä vaikutuksia sillä lopulta voi olla. Tämä on selkeästi kutsu rajapintaiselle teknologian ja yhteiskuntatieteen välissä olevalle tutkimukselle jossa voitaisiin huomioida niin teknologian syvällinen ymmärtäminen ja jopa teknologiakonstruktiivinen tutkimusote kuin myös yhteiskuntatieteen kautta ymmärrys ihmisen monimutkaisuudesta.

Käyttöliittymäsuunnittelu voisi lähteä rohkeasti kokeilemaan erilaisia lähestymistapoja pelkän mediadieetin laajentamiseen asemesta. Alla on kolme esimerkkiä siitä mitä voitaisiin esimerkiksi tehdä. Ensimmäisessä koetetaan rakentaa suosittelua heikkojen yhteyksien kautta. Toisessa pyritään tuomaan uutisesta jo käytävää keskustelua ja sitä kautta eri näkemyksiä enemmän esille. Kolmannessa tarjotaan uutisten jakajille vihjettä, että samaan aiheeseen on esitetty monta näkökulmaa.

Nämäkään lähestymistavat eivät välttämättä toimi. Pahimmillaan ne voivat vain aiheuttaa enemmän antisosiaalista toimintaa ja pahaa mieltä. Siitä huolimatta olisi tärkeää, että design-vetoinen käyttöliittymätutkimus tutkisi myös vallitsevaa lähestymistapaa haastavia ratkaisuja pohtisi mitä kaikkea voitaisiin tehdä tämän yhteiskunnallisen ongelman ratkaisemiseksi.

 

Somekohun anatomia – Mikä selittää kohun kestoa?

Somekohun anatomia – Mikä selittää kohun kestoa?

Somekohu, someraivo, sometapaus – Sosiaalisen median aikaansaamat puheenaiheet tuntuvat nousevan ja kuolevan yhä kiihtyvällä tahdilla. Niin yritykset kuin yksilöt suhtautuvat kohuihin monesti kauhunsekaisin tuntein: miten toimia jos seuraavaksi se olenkin minä myrskyn silmässä? Toisaalta jonkinlainen kohu voi olla tavoitteena, jos halutaan mahdollisimman suuri huomio omalle tuotteelle tai brändille.

Markkinoinnin puolella tavoitteellinen kohuilu kategorisoituu viraalimarkkinonnin piiriin. Tavoitteena on, että ilman merkittävää markkinointipanostusta keskustelu esimerkiksi omasta uutuustuotteesta leviäisi kuin virus, ja erityisesti sosiaalisen median myötä viraalimarkkinointi on noussut tärkeään rooliin. Tutkimuksessa on paljon pohdittu, mitkä asiat edistävät keskusteluaiheiden viraalista leviämistä. Kolme kilpailevaa strategiaa nousee usein esille:

  1. Aiheen kylväminen (seeding) mielipidevaikuttajille
  2. Aiheen kylväminen kriittiselle massalle
  3. Aiheen kylväminen eri verkostoja yhdistäville yksilöille (ns. siltastrategia)

Täysin yksimielistä näkemystä parhaasta strategiasta ei ole, mutta mielipidevaikuttajat vaikuttavat olevan tärkeässä roolissa aiheiden leviämisessä, koska he yksinkertaisesti postaavat someen paljon ja osallistuvat herkästi erilaisiin tempauksiin. Toisaalta median ollessa ns. hybridinen mielipidevaikuttajat ja julkkikset saattavat olla erityisen tärkeitä, koska perinteinen media kirjoittaa heistä todennäköisemmin kuin meistä taviksista.

Usein aiheiden viraalisuutta tutkittaessa keskitytään aiheesta käytävän keskusteluun määrään. Lasketaan siis esimerkiksi postausten, jakojen, latausten tai katselukertojen määriä. Harvemmin tutkitaan, mitkä tekijät selittävät aiheesta käytävän keskustelun kestoa. Esimerkiksi nyt ajankohtaisista aiheista voi todeta, että #metoo-keskustelu on kestänyt jo kuukausia, kun taas Pirkko Arstilan kolumnista kohistiin vain hetken.

Tutkimme aihetta SSMA-hankkeen puitteissa hyödyntämällä tutkimuskumppanimme Futusomen kehittämää Viraalivahti-palvelua. Viraalivahti on kehitetty tunnistamaan keskusteluaiheita, jotka alkavat saada poikkeuksellisen paljon mainintoja normaaliin verrattuna. Inspiraationa Viraalivahdille on toiminut ns. Mutti-gate, joka sai alkunsa, kun kokki Henri Alén tammikuussa 2014 tviittasi tomaattikastikereseptin tunnisteella #soosi ja ihmiset ostivat kauppojen hyllyt tyhjiksi Mutti-tomaattikastikkeesta.

Tutkimuksessa tarkasteltiin Viraalivahdin tunnistamia eri viraalitapauksia tammikuusta 2015 maaliskuuhun 2017. Osa tapauksista nousi Mutti-gaten sfääreihin, kun taas suurin osa päättyi nopeasti sen jälkeen, kun algoritmi tunnisti sen. Keskityimme ainoastaan hashtag- ja avainsanaperusteisiin tapauksiin, jotka saivat algoritmilta heti ensimmäisenä päivänä riittävän korkean luokituksen. Näiden rajoitteiden myötä tutkittavien viraalitapausten määrä oli 1335. Esimerkiksi #halpuuttaminen ja ABC:n lehtipihvikohu nousivat aineistossa Mutti-gatea vastaaviksi viraalitapauksiksi.

Määrittelimme tapauksen keston laskemalla yhtäjaksoisten päivien määrän, jolloin aihe sai vähintään yhden maininnan. Rajasimme pois yli 30 päivää kestävät keskustelut, koska ne tulkittiin koskevan jatkuvia keskusteluaiheita. Jäljelle jäi 960 viraalitapausta, joita koskevia mainintoja haettiin Futusomen rajapinnan avulla eri some-kanavista, kuten keskustelufoorumeista, avoimista Facebook-keskusteluista, Twitteristä, Instagramista, blogeista, uutiskommenteista, ja niin edelleen. Tällöin aineisto käsitti yhteensä lähes 14 miljoonaa some-postausta. Kuva näyttää, miten data jakautui eri alustoille.

Somekohu_saitit

Tapausten kesto oli keskimäärin noin kolme päivää hashtag-perusteisille ja noin yhdeksän päivää avainsanaperusteisille tapauksille. Lisäksi määrittelimme keskimääräisen päivittäisen postausten, keskustelijoiden ja keskustelukanavien määrän, sekä postausten, keskustelijoiden ja kanavien suhteellisen muutoksen ensimmäisen päivän jälkeen. Eri mallinnustavoilla esille nousi selkeä tekijä, joka selitti tapauksen kestoa: Mitä useammilla eri keskustelukanavilla aiheesta puhuttiin, sitä kauemmin se kesti. Postausten tai keskustelijoiden määrällä ei ollut vaikutusta aiheesta käytävän keskustelun kestoon.

Tuloksen perusteella voi väittää, että keskusteluaiheilla on lyhyempi elinkaari yksittäisten kanavien sisällä ja uudet kanavat ja yleisöt ovat edellytys keskustelun pidemmälle jatkumiselle. Tulos myös tukee eri verkostoja yhdistävien yksilöiden merkitystä viraalitapausten jatkumisen näkökulmasta. Todennäköisesti myös perinteisten medioiden mukaantulo edistää keskustelun jatkumista nimenomaan laajentamalla keskustelua uusiin kanaviin.

Lopuksi vielä vinkki niille, jotka haluavat välttää somekohuja: vaikka yhdessä kanavassa yhtenä päivänä ei-toivotusta aiheesta keskustellaan paljon, älä huolestu, sillä keskustelu ei välttämättä jatku kauan – ellei se leviä muihin kanaviin.

Tutkimus esitellään tammikuussa 2018 Hawaii International Conference on System Sciences -konferenssissa otsikolla “Anatomy of Viral Social Media Events” ja sen ovat laatineet Essi Pöyry, Salla-Maaria Laaksonen, Arto Kekkonen sekä Juho Pääkkönen.

Slämärit ja superkäyttäjät: ihmeellinen Internet tutkijan työpöydällä

 

https://www.flickr.com/photos/meddygarnet/8346190491/
(cc) Morgan @Flickr

Smarter Social Media Analytics -tutkimushankkeessa sovellamme ja kehitämme erilaisia koneoppimiseen pohjautuvia menetelmiä sosiaalisen median tekstisisältöjen analysointiin. Fiksumpi  analyysi kuitenkin vaatii algoritmien rinnalle ihmisilmää – vähintäänkin kehitysvaiheessa.

Olen lukenut eilen ja tänään  SSMA-hankkeemme aineistosta läpi parintuhannen viestin otoksen, jossa viestit koskevat kasvissyöntiä tavalla tai toisella. Otos liittyy koko aineistosta tehtyyn aihemallinnukseen, jossa noin puolen miljoonan viestin massasta on ohjaamattoman koneoppimisen avulla erotettu erilaisia topiikkeja tai teemoja. Mallinnuksen syötteenä skripti antaa kasan perusmuotoistettuja sanalistoja, jotka kuvaavat näitä erilaisia aiheita. Lopulta kuitenkin ainoa tapa varmistaa, että tehty analyysi toimii kuten pitää, on ihmisvoimin tarkistaa mistä topiikeissa oikeastaan on kysymys. Tämä tapahtuu esimerkkiviestejä tarkistamalla.

Tarkistuskeikka on pieni matka yhä vain ihmeelliseen Internetiin. Sosiaalisen median tutkimuksen parasta antia ovat usein juuri näkymät vuorovaikutuksen maailmoihin, joita ihmiset verkossa elävät ja tuottavat mikrotasolla. Tässä kaksi hienoa esimerkkiä kasvisruokakeskusteluista.

**

Viestejä läpikäydessä olen kohdannut kymmeniä erilaisia virtuaalislämäreitä. Omassa nuoruudessani slämäri oli vihko, jossa jokaisella sivulla oli eri kysymys ja vastaukset kirjattiin tietyllä symbolilla tai anonyymisti. Nykypäivän slämäri on keskustelupalstalla kiertävä lista numeroituja kysymyksiä, johon kukin kirjoittaja vastaa, tai lista [ ] väittämiä, joista [x] rastitaan kirjoittajaan sopivat kohdat. Arvioin kirjoittajien olevan enimmäkseen melko nuoria.

Tällaiset memeettiset sisällöt ovat toistuvia, mutta kuitenkin niin monipuolisia tekstimuotoja, ettei sanojen yhdessä esiintymisen perusteella aiheita luokitteleva algoritmi osaa niitä niputtaa. Virtuaalislämäreissä kuitenkin kiertää kasvisyöntiä koskevia kysymyksiä, joiden vuoksi kaikki nuo tuhannet viestit näkyvät jokaisessa kasvissyönti-sanalla tehdyssä haussa tai tietyllä sanalla piirretyissä trendikuvaajissa. Toki ne osaltaan trendistä kertovatkin; kasvissyönti puhututtaa.

Toinen ihmettelyn aihe oli aihemallinnuksessa erästä topiikkia kuvaava sana, joka ei ollut mikään suomen kielen tunnistettava sana. Pienen selvittelyn jälkeen paljastui, että kyseessä on yksi Suomi24-foorumin superaktiivinen käyttäjä, joka kirjoittaa palstalle joka päivä keskimäärin kolmetoista viestiä päivässä.

Viestimäärä on ilmeisen tarpeeksi, että saa aikaan oman aiheen aihemallinnuksessa, kun muut käyttäjät mainitsevat kyseisen nimimerkin tarpeeksi usein. Selvästi siis onnistunut keskustelunherättäjä ja oman mikroyleisönsä julkkis, jonka viesteillä voi olla suurikin vaikutus keskustelujen aihepiiriin.

**

Molemmat esimerkit ovat sellaisia, joita on hankala automaattisesti tekstin seasta erottaa ilman laadullista tarkastelua, tai vähintäänkin sen tekeminen vaatisi melkoisia tapauskohtaisia virityksiä koodiin. Viritykset taas ovat varsinkin tuotantokäytössä aika hankalia ja toisaalta tekevät analyysista prosessin, jonka toimintaperiaatteita on vaikea ymmärtää ja tuloksia tulkita.

Silti ne ovat aika oleellisia mikrotason havaintoja siitä dynamiikasta, jolla vuorovaikutus verkossa muodostuu.

Kohti fiksumpaa keskustelujen mallinnusta siis pyritään, mutta todellisuus on aina vaan analytiikkaa ihmeellisempää. Se on jotenkin lohdullista.

Kestävämpiä digitalisia ratkaisuja verkostoitumiseen ja yhteistyökumppanien valintaan?

Rajapinta.co:n kuukausitapaaminen Tampereella 29.9. vahvisti heikkoja siteitä paikallisiin tutkijoihin. Poimintana tapaamisesta, seuraavassa tiivistelmä järjestäjien tutkimusagendasta, joka paitsi sijoittuu teknologian ja yhteiskunnan rajapintaan myös demonstroi usean tieteenalan mielenkiintoista yhteistyötä. Agenda liittyy Thomas Olssonin (ihminen-teknologia vuorovaikutus), Jukka Huhtamäen (verkostoanalytiikka ja datatiede) ja Hannu Kärkkäisen (tietotyö ja arvonluonti) COBWEB-akatemiahankkeeseen sekä Big Match Tekes-hankkeeseen.

Ihmisten välistä sosiaalista sovittamista (engl. social matching tai matchmaking) tapahtuu työelämässä mm. rekrytointiprosesseissa, tiimien muodostamisessa ja verkostoitumisessa. Sopivan henkilön, yhteistyökumppanin tai tiimin tunnistaminen ja valinta vievät paljon aikaa ja intuitiiviset “mätsäämisen” käytännöt ovat alttiita inhimillisille vinoumille. Esim. verkostointitapahtumissa on yleistä, että samankaltaiset ihmiset vetävät puoleensa toisiaan; tällainen homofilia on kuitenkin tietotyön tuottavuudelle vahingollista. Uskomme, että rohkaisemalla ihmisiä kohtaamaan erilaisista taustoista tulevia, eri yhteisöjen jäseniä voidaan edistää tietotyössä olennaista ideoiden ristiinpölyttymistä ja moninäkökulmaista, verkottunutta arvonluontia.

Tavoitteenamme on suunnitella ja toteuttaa sosiaaliseen massadataan, verkostoanalytiikkaan ja koneoppimiseen perustuvaa tietoteknologiaa, joka mahdollistaa digitaalisia tapoja sovittaa, ryhmäyttää ja törmäyttää ihmisiä työelämässä. “Työelämän Tinder” on mainio vertauskuva, mutta parinvalinnan periaatteet ovat työelämässä aivan erilaiset kuin yksityiselämässä. Tutkimuksemme peruslähtökohta on, että datapohjaisilla tavoilla voidaan tunnistaa otollisia, toisiaan sopivasti täydentäviä osaajakombinaatioita ja siten tuottaa positiivista sosiaalista serendipiteettiä. Tavoite voisi konkretisoitua esim. diversiteettiä lisäävinä henkilösuosittelujärjestelminä (diversity-enhancing people recommender systems) tai uudenlaisina yhteistyökumppaneiden haku- tai selausjärjestelminä.

Sosiaalinen massadata eli “Big Social Data” (esim. sosiaalisen median sisällöt ja profiilit, portfoliot, verkostot) voivat rikastaa palvelujen kautta syntyvää kuvaa kustakin käyttäjästä. Nykyiset profiilit esim. työnhaussa ovat yleensä käyttäjän itse laatimia ja siksi kovin staattisia ja sisällöltään rajoittuneita. Esim. twiitit voivat kertoa paljon henkilön tämän hetken kiinnostuksen kohteista ja tulevaisuuden visioista, kun taas esim. verkossa olevat ammatilliset julkaisut ja esitykset voivat kertoa henkilön yksityiskohtaisesta osaamisesta. Tunnistamalla relevantteja yhteisiä teemoja ja komplementaarisia osaamisia esim. tapahtuman osallistujien välillä voidaan automaattisesti tunnistaa potentiaalisia pareja, joiden kannattaisi keskustella lisää. Sosiaalisten verkostojen analyysillä voidaan paitsi arvioida henkilöiden keskinäistä suhdetta ja verkoston kokonaisrakennetta myös tunnistaa yhteisiä kontakteja ja ns. heikkoja siteitä (weak ties).

Tarkoituksenamme on lisäksi tarjota positiivinen skenaario sosiaalisen median datan käytölle ja digitalisaatiolle yleensä. Ehkäpä tällaisten kaikkia hyödyttävien palvelujen kehittäminen hälventää ihmisten yksityisyydensuojan menettämisen pelkoa sekä motivoi yrityksiä avaamaan data-aineistojaan laajemmin hyödynnettäviksi?

Uusien palveluiden ideointi ja utopististen tulevaisuuskuvien maalailu on kuitenkin huomattavasti helpompaa kuin niiden toteuttaminen. Data-keskeisiä haasteita ovat mm. sopivan datan saatavuus eri palvelujen ja palveluntarjoajien siiloista, datan keräämisen ja analysoinnin yksityisyyteen liittyvät ja muut eettiset haasteet sekä massadatan kehittymättömät analyysi- ja visualisointimenetelmät. Sovittamisen sosiaalipsykologiset haasteet ovat jopa vielä monimutkaisempia: “sopivan” henkilön tai organisaation tunnistaminen vaatii ymmärrystä mm. sovitettavien tahojen mahdollisista yhteistyötarpeista, ja jokaisella sovittamistilanteella on uniikki tavoite ja erityispiirteitä, jotka pitäisi ottaa huomioon järjestelmän päätöksenteossa. Digitaalisten sisältöjen suosittelujärjestelmistä tuttuja menetelmiä (esim. social filtering) ei siis voida suoraan hyödyntää.

Kokonaisuuteen vaikuttavat myös käyttäjäkokemukselliset erityispiirteet: miten saada käyttäjä luottamaan teknologian tekemiin päätelmiin ja suosituksiin henkilöistä? Miten saada ihmiset delegoimaan osan päätäntävallastaan ja toimijuudestaan teknologialle, varsinkin näin perustavanlaatuisen inhimillisellä sovellusalueella? Miten sinä kokisit sen, että kännykkäsi yhtäkkiä piippaa kertoakseen, että joku tuntematon, mutta algoritmin mielestä todella relevantti tyyppi on tulossa samaan tapahtumaan ja että teidän kannattaisi tavata?