Infrastructures and publics – notes from Conference in Siegen

I attended the First Annual Conference 2016 Infrastructures of Publics — Publics of Infrastructures to gain some more insight about the most current thinking in Europe around topics like platforms, society, and algorithms. The University of Siegen organized this conference as they have a new center of excellence around these themes.

Putting it all together

I’ve tried to do some categorization and choose highlights from the conference, but before moving to these smaller bits, I think it’s worth to say something about the whole conference. Throughout the journey of the conference, it became apparent terms such as infrastructures and the public have various meanings. Their focus on infrastructures focused surprisingly lot on physical things to my taste, but give insights e.g., to archeology research (not that far from coding, actually) and enablers for digital interaction. The public was developed primarily from media scholarship.

If I understood it correctly, the center of excellence aims to mingle these two approaches together, to create some ideas how infrastructures and publics interact and shape each other. Sadly, these people seem more prominent in media and culture studies, which I don’t follow that actively, and are publishing less in my favorite venues (CSCW). I do hope that these ideas will move towards the CS people as well, they (we?) tend to forgot these type of research far too often.

Politics and infrastructures

There were several presentations focused on the political aspects of using various tools and infrastructures. So, a huge collection to come here.

Christopher Le Dantec presented his work around using sensors for the public participation. Sadly, I had already read his work in CSCW/CHI domain (e.g. the biking case), and thus the presentation had less interesting novelty aspects. Fundamentally, he has instrumented city bikers to map routes they use and used the data in collaborative design sessions to develop new routes for bikers. He did, however, use a word I have not heard before data literacy. Sadly, there was not a clear definition of this and thus I’m inclined to consider this in similar way computational literacy – just recently under criticism by Matti Tedre and Peter J. Denning.

The more interesting presentation was by M. Six Silberman, a Ph.D. computer science now working in German labor union on new platforms for work. He presented work on Turkopticon, a platform which manages the reputation of those putting out tasks in Mechanical Turk. The idea of this is to balance the current platform by providing those employed through it also insights about their employers. I really like this thinking as it shows how information technology can be used to challenge the society (created by other IT researchers) and try to find balance in platforms.

Finally, Hagen Schölzel presented the concept of communication control, more applied in the business or public relationships literature. The idea behind communication control is actions are planned before hand behind the curtains to shape the communication towards hoped directions; it is precise but does not look like it. Such idea can be applied to various social computing applications, where their interaction is often more strategic than it seems.

Studying the app ecologies

Carolin Gerlitz and Fernando van der Vlist have made an interesting study about the applications types which emerge to support the primarily platform, e.g., in the case of Twitter, all the various Twitter-based applications out there. They concluded that there are at least three application types

  1. strategic engagement, where applications aim to utilize the various forms of data in the app
  2. enhancing functionalities, where applications improve the existing platform functionalities
  3. innovative apps, which add new novel ways to use the application.

These relate further to the grammar of actions, which tell more about how applications are supposed to be used. These relate to the APIs and various rules related to the platform. Finally, the examination fo the extended applications describe the grammar in rather a clear manner.

Archeology and infrastructures

Jürgen Richter presented how the cabinets used by archeologist also have shaped the direction of the research domain as a whole. For example, the early focus to classify objects based on their materials have directed research towards different ages, like stone age. The organization of the cabins has become, almost accidentally, materialized politics. I started to think what similar type of things might exist in fields I’m familiar, and suspect that the overuse of demographic variables to explain phenomena might be such historic relic, passed over generations and still shaping how we examine human activity in various social processes.

Furthermore, he presented an interesting temporal observation: as the archaeology collection is generated over generations, the current curator collaborates with the previous curators and aims to understand their logic of data categorisation and storing. To adapt this idea to more digitalised area, programmers collaborate with all the previous coders with the aim to understand what the heck is going on. Naturally, this collaboration might be difficult: the previous actors might be out of reach, i.e., in another company or even passed away.

I’m grateful for the travel grant from the Doctoral Programme in Computer Science at the University of Helsinki. This post has been crossposted to my personal blog.

Teknologiavisio ei ole neutraali

Facebookissa on parin viime päivän aikana kiertänyt kokoelma videoita ja kuvia, joissa Korea Future Technology -firman kehittämä humanoidinen, ohjaamolla varustettu robottihaarniska liikkuu teollisuushallissa. Videon robottihaarniska on todella hieno, ja sitä katsoessa tuntuu että tulevaisuus on taas yhtäkkiä paikallisesti täällä. Tunne on hyvin pitkälle sama kuin Boston Dynamicsin robottivideoita katsellessa.

Videot nähtyäni minulle tuli mieleen vastikään lukemani artikkeli “The future as a design problem” (Stuart ym. 2016), jossa käsiteltiin teknologiakehityksen ja tulevaisuusvisioden suhdetta. Artikkelissa tyypiteltiin kaksi strategiaa suhteessa tulevaisuuteen, erityisesti teknologiakehityksen mielessä. Pragmaattisella projektiolla pyritään ikään kuin lukitsemaan mahdollinen tulevaisuus ekstrapoloimalla nykyhetkeen johtaneesta kehityksestä. Tällöin tulevaisuus on tutkimuksen ja tietämisen kohde, ja sopivilla mittareilla se voidaan selvittää. Toinen strategia on suuri visio, jossa pyrkimyksenä on rakentaa polku toivottavaan tulevaisuuteen, toisin sanoen vaikuttaa tämän hetken päätöksiin jotta tulevaisuus olisi suuren vision mukainen. Vaikkakin kirjoittajat tuntuivat viittaavan aika säästeliäästi tulevaisuudentutkimuksen kirjallisuuteen, nämä tyypittelyt eivät käsittääkseni ole ainakaan pelkästään heidän kehittelemiään.

No, käytännön teknologiavisioissa on elementtejä molemmista strategioista. Artikkelissa oli purettu erityisesti 90-luvun alussa Xerox PARCissa luotua teknologiavisiota ubiikista laskennasta (Weiser 1991), sekä vision sidettä teknologian kehitykseen. Pragmaattisena projektiona ubicomp-visio oli sidottu sellaiseen teknologiaan joka nähtiin mahdolliseksi tai jopa väistämättömäksi informaatioteknologian kehittymisen myötä. Ubicompin suurta visiota rajoitti se, että vision täytyi toisaalta kuvata maailma kyllin muuttumattomaksi, jotta se resonoisi ihmisissä ja onnistuisi rekrytoimaan heitä taakseen. Näin ollen visiossa oletettiin maailma teknolologiakehityksen ulkopuolella, siis kulttuurisesti ja sosiaalisesti, turhan vakiintuneeksi. Visio otettiin teknologian kehittäjien toimesta vakavasti siinä mielessä, että nämä ottivat sen tutkimus- ja kehitystyön tavoitteeksi, ja näin vision mukaista ubicomp-teknologiaa alettiin pontevasti kehittää. Hyvin laadittu ja artikuloitu kuva tulevaisuudesta siis käytännössä rajasi toteutuvaa tulevaisuutta.

Mitä tällä on tekemistä robottihaarniskan kanssa? Väittäisin että on olemassa hyvät syyt miksi videoiden robottihaarniska näyttää juuri tuolta ja toimii juuri noin. Sanotaanko nyt näin, että Korea Future Technologyn insinöörit ja videot Facebookissa jakanut suunnittelija ovat mecha-pelinsä pelanneet ja -sarjakuvansa lukeneet. Vaikuttaa siltä, että scifi-kirjallisuuden visiot on otettu aika lailla sellaisinaan suunnittelua ja teknologian kehitystä ohjaaviksi tavoitteiksi. Näin populaarikulttuurissa esitetty teknologiavisio siis suoraan rajaisi toteutuvaa tulevaisuutta. Toinen vaihtoehto tietysti on, että mech-scifi on onnistunut paljastamaan jotain perimmäistä teknologian kehityksestä ja todellisuuden luonteesta, ja juuri tämännäköiset ihmisen hytistä käsin ohjaamat robottihaarniskat ovat jonkinlainen luonnollinen teknologian kehityspolku, jolle päädytään niitä esittävästä populaarikulttuurista riippumatta.

En tiedä pidänkö hyvänä vai huonona asiana, että yritys Koreassa päättää rakentaa tosielämän mechan. Ehkä en kumpanakaan, mutta aika mielenkiintoista se mielestäni on joka tapauksessa. Melvin Kranzbergiä mukaillen voisi ehkä sanoa, että teknologiavisio ei välttämättä ole hyvä tai paha, mutta ei se myöskään neutraali ole. Lienee paikallaan mainita myös, että ainakin itse tuntemassani scifissä mechojen sovelluskohteet ovat olleet varsin sotaisia. Tämä näkyy myös videoiden kommenteissa.

Reeves, Stuart, Murray Goulden, and Robert Dingwall. 2016. “The Future as a Design Problem.” Design Issues32 (3).
Weiser, Mark. 1991. “The Computer for the Twenty-first Century,” Scientific American.

Smarter Social Media Analytics -hanke starttaa joulukuussa

4601859272_4228421089_z
Kuva: Matt Wynn

Saimme viime viikolla virallisesti tiedon, että Tekes rahoittaa projektiamme Smarter Social Media Analytics, jossa yhdessä yrityskumppaneiden kanssa lähemme nimen mukaisesti rakentamaan fiksumpaa sosiaalisen median analytiikkaa – tavoitteena tutkia ja kehittää uusia menetelmiä trendien ja ilmiöiden tunnistamiseen laskennallisesti sosiaalisen median tekstimassoista.

Hankkeen toteuttavat Kuluttajatutkimuskeskus KTK (HY) ja Tietotekniikan tutkimuslaitos HIIT (HY), ja rajapintalaisista mukana projektissa virallisesti ainakin Salla, Matti ja Arto. Alla hankkeen tiivis kuvaus tutkimussuunnitelmasta. Huraa!

**

Sosiaalisessa mediassa vahvistetaan ja rakennetaan yrityksiin, organisaatioihin ja brändeihin liittyviä käsityksiä ja jaetaan niihin liittyviä kokemuksia. Digitaalinen mediaympäristö tarjoaa mahdollisuuden seurata ja tutkia eri toimijoihin kohdistuvia arvioita, arvosteluja, kokemuksia ja tuntemuksia laskennallisesti. Tässä hankkeessa rakennamme isojen verkkoaineistojen avulla menetelmiä keskusteluissa syntyvien ilmiöiden ja trendien automaattiseen, reaaliaikaiseen tunnistamiseen.

Käytössämme ovat satojen miljoonien viestien laajuiset sosiaalisen median aineistot: Suomi24-verkkoyhteisön koko keskusteluaineisto, Futusome Oy:n keräämä satojen miljoonien viestien kokoinen aineisto suomenkielistä sisältöä eri sosiaalisen median palveluista. Näiden lisäksi hyödynnämme Taloustutkimus Oy:n keräämiä edustavia kyselytutkimusaineistoja ja isoja media-arkistoja. Näitä aineistoja rinnastamalla pystymme rakentamaan ja validoimaan algoritmeja, joiden avulla nousevia trendejä ja ilmiöitä on mahdollista koneoppimisen avulla tunnistaa verkkokeskusteluista. Laskennallisen data-analyysin ja sitä tukevan laadullisen analyysin ohella hankkeessa kerätään laadullista havainnointi- ja haastatteluaineistoa toimintatutkimuksellista näkökulmaa käyttäen.

Tutkimuskokonaisuus limittyy osaksi sekä laskennallisen yhteiskuntatieteen kehittymistä Suomessa että sosiaalisen mediaa hyödyntävien yritysten (ns. asiakasyritykset) diagnostisten valmiuksien parantamiseen tähtäävää valmentamista. Tutkimuksellinen näkökulma varmistaa myös analytiikan sikäli viisaamman kehittämisen, että analytiikka huomioi sosiaalisen median aineistojen käyttöön liittyvät eettiset ja taloudelliset näkökulmat myös tavallisten käyttäjien näkökulmasta.

Helsingin yliopiston Kuluttajatutkimuskeskuksen ja Tietotekniikan tutkimuslaitos HIIT:in yhteistyötahoina hankkeen valmistelussa ovat olleet Aller Media Oy, Taloustutkimus Oy ja Futusome Oy (ns. analytiikka- ja aineistoyritykset jotka osallistuvat hankkeeseen työpanoksellaan ja aineistoilla). Lisäksi konsortiossa mukana ovat pienemmät kasvuvaiheen analytiikkayritykset (Underhood.co, Sometrik, Leiki, Arvo Partners, myös Futusome), jotka osallistuvat hankkeeseen työpanoksellaan ja luovuttamalla tutkimusaineistoja tutkijoiden käyttöön, sekä isommat asiakasyritykset (Atria Suomi Oyj, Ilmarinen Keskinäinen Vakuutusyhtiö Oy, SOK, TeliaSonera Oyj, myös Aller ja Taloustutkimus), jotka osallistuvat hankkeeseen rahapanoksella.

How big is the platform economy? Four key takeaways from Pew Research’s new report on gig work, online selling and home sharing

One question I get asked a lot and always find difficult to answer is how big is the platform economy.

The question is tricky to address, since there is no simple and agreed-upon definition of what even constitutes the platform economy. Pew Research Centre’s new report on gig work, online selling and home sharing does, however, provide us with some useful insight into the prevalence of earning money from digital ‘gig work’ platforms among adults in the US. While the report doesn’t speak to the situation in Finland or Europe, having a baseline is a helpful starting point.

Here are four key takeaways summarized from the report – and a short remark on what the report does not address.

1. Almost a quarter of American adults have earned money in the “platform economy” over the last year: First, nearly one-in-ten Americans (8%) have earned money in the last year using digital platforms to take on a job or task: 5% of Americans indicate that they have earned money from a job platform in the last year by doing online tasks (including but not limited to IT work, taking surveys, and doing data entry). Some 2% of Americans have earned money by driving for ride-hailing services, while 1% each have used these platforms to perform shopping or delivery tasks, as well as cleaning or laundry tasks. Second, nearly one-in-five Americans (18%) have earned money in the last year by selling something online. The largest share of online sellers are using digital platforms to sell their own used or second-hand goods, but others use these sites to sell a wide range of handmade items and consumer goods. Third, 1% have rented out their properties on a home-sharing site. To sum across these three types of activities, some 24% of adults in the US have earned money in the platform economy over the last year.

2. There are significant differences between those earning money from labor platforms (where value is created primarily through investing time and effort) vs capital platforms (where value is created primarily by making goods or possessions available): First, participation in labor platforms is more common among blacks and Latinos than among whites, more common among those with relatively low household incomes than those with relatively high household incomes, and more common among young adults than any other age group. Second, when it comes to capital platforms such as online selling, the reverse is true: Online selling is more prevalent among whites than blacks, more common among the well-off and well-educated than those with lower levels of income and educational attainment, and is engaged in by a relatively broad range of age groups.

3. Earnings from the platform economy mean different things to different people. The meaning of these earnings varies both between and within particular platforms: First, users of labor platforms and capital platforms express different levels of reliance on the income they earn from these sites. More than half of labor platform users say that the money they earn from these sites is “essential” or “important” to their overall financial situations. The same is true of just one-in-five online sellers (20%). Second, in the case of gig work, workers who describe the income they earn from these platforms as “essential” or “important” are more likely to come from low-income households, to be non-white and to have not attended college. They are less likely to perform online tasks for pay, but more likely to gravitate towards physical tasks such as ride-hailing or cleaning and laundry. They are also significantly more likely to say that they are motivated to do this sort of work because they need to be able to control their own schedule or because there are not many other jobs available to them where they live.

4. The broader public has decidedly mixed views about jobs in the emerging gig economy. A majority of Americans feel that these jobs are good options for people who want a flexible work schedule (68%) or for older adults who don’t want to work full time any more (54%). Yet, around one-in-five feel that these jobs place too much financial burden on workers (21%) and let companies take advantage of workers (23%), while just 16% feel that this type of work offers jobs that people can build careers out of.

+1 What does this report not talk about? Pew’s new report is a useful starting point to quantifying the prevalence of earning money from digital ‘gig work’ platforms, even if it focuses only on adults in the US. Taken my particular interests in peer-to-peer exchange and home sharing (aka network hospitality), what I was most missing in this report were insights into participation in initiatives that promote non-monetary co-use of resources (e.g. tool libraries or not-for-profit borrowing and lending of physical goods) instead of just online selling, and the non-monetary exchanges that go on in the scope of home sharing (such as network hospitality arranged via the Couchsurfing platform but also the social exchanges that are sometimes facilitated by the initial financial exchanges that structure home sharing via services like Airbnb). This report did not set out to investigate such questions, but hopefully a future one will. To fully appreciate the difference platform economies make in people’s lives, it is important to include the non-monetary activities in the equation, too.

For further reading:
Gig Work, Online Selling and Home Sharing (pdf, full version of the Pew Research report discussed in this blogpost)
The Online Labour Index (the first economic indicator that provides an online gig economy equivalent of conventional labour market statistics, developed at the Oxford Internet Institute)

Our prior research on network hospitality:
Lampinen, A. & Cheshire, C. (2016) Hosting via Airbnb: Motivations and Financial Assurances in Monetized Network Hospitality. CHI’16 Proceedings of the annual conference on Human factors in computing systems. ACM New York, NY, USA.

Lampinen, A. (2016) Hosting Together via Couchsurfing: Privacy Management in the Context of Network Hospitality. International Journal of Communication, 10(2016), 1581–1600.

Ikkala, T., & Lampinen, A. (2015) Monetizing Network Hospitality: Hospitality and Sociability in the Context of Airbnb. CSCW’15 Proceedings of the ACM 2015 conference on Computer supported cooperative work. ACM New York, NY, USA.

Lampinen, A. (2014) Account Sharing in the Context of Networked Hospitality Exchange. CSCW’14 Proceedings of the ACM 2014 conference on Computer supported cooperative work. ACM New York, NY, USA.

Trump ja sosiaalisen median analytiikka

screen-shot-2016-11-14-at-17-34-50
Screenshot from Tagboard.

Yhdysvaltain presidentinvaalit ja sosiaalisen median osuus niissä ovat herättäneet viime päivinä paljon keskustelua. Debatti kiteytyy kahden teeman ympärille. Ensinnäkin, mitä sosiaalisen median kuplautumisesta kertoo se, että Donald Trumpin voitto tuli monelle yllätyksenä. Toisekseen, olisiko Trumpin voiton voinut ennustaa sosiaalista mediaa seuraamalla?

Avaan tässä postauksessa jälkimmäistä kysymystä eli sosiaalisen median roolia ja analytiikkaa vaalivoiton ennustuksessa. YLE julkaisi tästä vastikään jutun, jossa oli hyödynnetty Ezyinsightsin analytiikkaa, ja johon itsekin kommentoin. Puhuin samasta tematiikasta myös viime maaliskuussa valtiotieteellisessä tiedekunnassa järjestetyssä USA:n vaalit -luentosarjassa sekä Helsingin Sanomien toimittajan kanssa myöhemmin toukokuussa.

Jo maaliskuussa oli selvää, että millä tahansa sosiaalisen median mittarilla Trump on vaalien voittaja – vaikka silloin mukana kisassa olivat vielä kaikki esivaaliehdokkaat. Kuten Ezyinsightsin analytiikka osoittaa, sama näkyi monella mittarilla myös vaalisyksynä.

Sosiaalisen median analytiikan ongelma on kuitenkin se, että se antaa helposti kivoja numeroita, joiden päälle voi perustaa väittämiä. Tämä pätee erityisesti palveluiden kuten Facebookin itsensä antamiin tietoihin.

Facebook mittaa viesteihin “sitoutumista” (engagement, termi ei oikein käänny kunnolla suomeksi), joka on käytännössä kaikkien sen viestin aiheuttamien reaktioiden (kommentit, tykkäykset, jaot) yhteissumma. Twitter puolestaan kertoo impressions-luvun, joka mittaa twiitin potentiaalisesti nähneiden silmäparien määrää.

Molemmat ovat ongelmallisia mittareina. Twitterin impressioluku kertoo suurimman mahdollisen yleisön määrän twiitin saamilla reaktioilla, mutta ei mitään todellisista lukijoista. Facebookin “sitoutuminen” puolestaan on jonkinlainen kiinnostuksen mittari, mutta lopulta vain numero, jolla ei ole mitään laadullista sisältöä.

Puhtaan määrällisistä mittareista on kuitenkaan vaikea sanoa mitään yleisöjen suhteen tai kiinnostuksen laadusta. Todennäköisesti monet ovat seuranneet Trumpia myös mielenkiinnosta tai kauhistuksesta – hän on ollut melkoinen mediailmiö viimeisen ainakin vuoden ajan sekä perinteisessä että sosiaalisessa mediassa. Moni on varmasti seurannut ja jakanut Trumpin tekemisiä myös kauhistellakseen hänen lausuntojaan.

Emme siis voi lukujen perusteella sanoa mitään niistä tulkinnoista tai syistä, miksi ihmiset tiettyä videota tai päivitystä katsovat ja klikkaavat.

Juuri tästä syystä menestystä sosiaalisessa mediassa on aika vaikea määritellä. Seuraajia ja tykkääjiä on, mutta heidän motiiveistaan emme tiedä mitään. Toimijan näkyvyyteen jokainen kriittinenkin klikki kuitenkin väistämättä vaikuttaa, sillä sosiaalisen median julkisuus suosii suositumpaa ja nostaa reaktioita herättäneitä viestejä ja uutisia ihmisten uutisvirtoihin.

Ongelmallista on myös se, että mikään sosiaalisen median alusta ei ole edustava otos väestöstä. Varsinkaan jollakin alustalla aktiivisesti toimivien otos ei ole edustava, vaan vinoutunut vähintäänkin poliittisen kiinnostuksen tai teknologisten taitojen perusteella. Esimerkiksi Yhdysvalloissa Facebookia käyttää 68% aikuisväestöstä, mutta valtaosa heistä on todennäköisesti epäaktiivisia.

Tutkimuksissa sosiaalisen median metriikoiden ja äänestystulosten välistä yhteyttä ei olla saatu luotettavasti osoitettua. Tulevaisuudessa tilanne saattaa parantua erilaisten tekstinlouhinnan menetelmien (esim. sentimenttianalyysi) yleistyessä ja arkipäiväistyessä.

Sitä odotellessa vaikuttaa tällä kertaa siltä, että sosiaalinen media oli hiukan enemmän oikeassa kuin gallupit, mutta yllämainituista syistä rohkenen väittää, että se kertoo enemmän sattumasta ja Trumpista hybridinä mediailmiönä. Kuten Hesarille totesin: “Näissä vaaleissa Trump on täydellinen klikkisampo ja tämän ajan mediamagneetti. Hän suoltaa suoraan twiiteiksi ja klikkiotsikoiksi sopivia iskulauseita, ja sopii siksi mediakoneiston tarpeisiin erittäin hyvin.”

Yhteensä opimme sen, että poliittinen todellisuus ja ihmisten käyttäytyminen on monimutkaisempaa kuin mitä sosiaalisen median analytiikka tai gallup-kyselyt osaavat selvittää. Onhan se myös jollakin tapaa lohdullista ainakin näin yhteiskuntatieteilijälle.

– –

ps. Laadullinen tutkija minussa uskoo, että Trumpin sosiaalisen median menestystä selittää yleisen mediailmiön lisäksi kaksi asiaa: taitavat retoriset keinot ja aitous (authenticity) tai ainakin aidolta vaikuttava, kansaan vetoava viestintä. Aitouden vetovoimaa on tutkittu goffmanlaisittain Internetin sosiaalipsykologiassa, myös politiikan ja kampanjoinnin kontekstissa.

pps. Trumpista ja sosiaalisesta mediasta huomenna aamulla juttua ainakin Huomenta Suomessa ja YLEn Ykkösaamussa, äänessä Digivaalit-projektin Mari Marttila!

DCCS October meetup: topic models, data economy and computer vision

Last Friday our Rajapinta/DCCS meetup was organized for a third time. We were kindly hosted by Aleksi Kallio and CSC IT Center for Science. CSC is a non-profit company owned by the state of Finland and administered by the Ministry of Education and Culture. CSC maintains and develops the centralised IT infrastructure for research, libraries, archives, museums and culture. Their services have mostly been used by researchers in sciences or life sciences, but recently we have been discussing and collaborating with them in social sciences, especially computational social sciences as well. For instance, the data processing in Digivaalit 2015 was mostly done on CSC servers.

In the meetup we had three presentation each followed by a lively discussion.

dccs2810-matti.gifFirst, Matti Nelimarkka discussed topic models and the ways how to employ them in social sciences, and in particular the different ways of selecting the “k”, i.e. the number of topics you want to extract from the data.

Computer science uses measures such as loglikelihood, perplexity or gibbs sampler to find the best estimate for k. Social science people, however, often select a few k numbers, check and compare the results (i.e., word lists) and using some heuristics pick the one that seems best.

Matti ran an experiment to where he asked participants to examine topic model results from a given data set for 10-30 k’s and select the k that seemed to best with the given research problem. After this, the participants were interviewed about the process they used to select the k.

There were some general heuristics all participants seemed to use: they first, tried to avoid overlapping topics (if they existed, they cut down the number of topics) and second, tried to avoid topics that seem to include multiple themes (and increased the number of topics in such cases). Most importantly, all the five participants selected a different k with a large variance.

Hence, results show a sort of method opportunism in selecting the k of topics: depending on what people want to find from the data they perceive it differently. Matti’s suggestion is, that computational methods should be used to select the k.

*

dccs2810-tuukka.gifNext, Tuukka Lehtiniemi discussed the troublemakers of data economy based on a manuscript he’s preparing. As troublemakers he refers to players who disrupt the market and gain ground by acting against the normal way of doing things. In normal business markets such actors would be Spotify, Uber, Igglo, or Onnibus – or national broadcasting companies such as YLE for commercial media.

But what is the conventional mode or the market in data economy? The market is to a large extent defined by the large players known as “le GAFA”: Google, Amazon Facebook and Apple. Their business is mostly based on datafication, which means turning social behaviour into quantifiable data (see e.g., Mayer-Schönberger & Cukier, 2013). Such data is born online within these services based on the activities of the users. The markets that exist upon this data are largely base on selling audience data to advertisers and various third party data services. Tuukka, following Shoshana Zuboff’s thoughts, calls this surveillance capitalism.

In his paper, Tuukka examines three potential alternatives to the surveillance model: two commercial startup initiatives (Meeco and Cozy Cloud) and a research-originated one (OpenPDS developed at MIT). These cases are explored to identify overarching features they strive to achieve in relation the above questions. The identified new roles for users are data collector, intermediary of data between services, controller of data analysis, and source of subjective data.

A version of the related paper is available on the Oxford Internet Institute IPP conference site.

*

dccs2810-markus.gifIn the third presentation Markus Koskela from CSC presented some recent advances in automated image analysis tools – or as he neatly put it, analyzing the dark matter of the internet.

Automated image analysis is commonly done nowadays using machine learning and deep neural networks. A big leap forward has been taken around 201,2 made possible by first, the availability of open visual data, second availability computational resources, and third, some methodological advances. From a machine learning perspective there is nothing completely new but a few simple tricks to improve visual analysis.

Nowadays lots of open source tools are available for visual analysis: codes available in GitHub, pre-trained networks are openly available, several annotated datasets to use in the analysis (e.g. Imagenet, Google Open Images). Markus recommends Keras (keras.io) as his favorite choice, and mentioned TensorFlow and Theano as other usable tools.

As a final note of caution Markus reminded that researchers still haven’t solved what vision actually is about. It’s always that particular data set or a particular task, where a computer vision solution works, but generalization is very difficult. For example he presented some funny results of image recognition algorithms’ work in the sample images from Google Research’s automated caption generator: algorithm can’t tell the difference between a traffic sign with stickers and an open refrigerator, if the light sheds over the sign in a particular way (same pics available in this Techcrunch article)

*

Next DCCS meetup will be held in Tampere on November 25th in connection with the Social Psychology Days – stay tuned!

Väline on osa agendaa eduskuntavaaleissa 2015

Aiheet eri mediakanavissa. Klikkaa suuremmaksi.

Eräänä iltana ryhmä Digivaalit 2015-hankkeen tutkijoita oli kokoontunut Mattermostiin juonimaan uusinta artikkeliluonnosta vaikuttaja-indeksistä ja agendan normalisoitumisesta. Analysoidessamme ehdokkaiden vaikuttajuutta eri medioiden agendaan olimme aiemmin kirjoittaneet myös kuvailleet aiheiden esiintymistä eri viestintävälineissä. Artikkelikäsikirjoituksessa teemajakauman rooli oli ollut enemmänkin kuvaileva, mutta nyt ryhdyimme pohtimaan, saisiko siitä sittenkin nostettua havaintoja – ja tasapainotettua artikkelia, joka oli aika valtaindeksiin keskittynyt ja vähän hassun muotoinen sen takia.

Mielestäni “iltavuoro” on paras aika tälläiseen työhön. Silloin voi tuijotettaan ja pohtia melko rauhassa asioita, tällä kertaa arvioida mitä taulukossa oikeasti olikaan esillä. Yön aikana syntyneet havainnot olivat – ainakin minun mielestäni – kiinnostavia.

Taulukosta nähdään, kuinka perinteinen media on selvästi poliittiseen asiasisältöön keskittynyttä, kun taas sosiaalinen media, niin ehdokkaiden kuin kansalaisten käyttämänä, korosti kampanjointia ja mobilisointia. Tämä ei ehkä ole kovinkaan yllättävää, sillä journalistinen, toimitettu sisältö on aina erityistä. Sen sijaan yllättävää voi olla asiasisältöjen moninaisuus perinteisessä mediassa. Kun sosiaalisessa mediassa keskusteltiin vain muutamista asiasisällöistä, oli toimituksellinen sisältö paljon rikkaampaa ja moniäänisempää. Näyttäisi siis siltä, että aiheiden monipuolisuuden näkökulmasta perinteiselle medialle on paikkansa.

Toisaalta ehdokkaiden Twitter- ja Facebook-aiheissa oli eroja. Ehdokkaat käyttivät Twitteriä enemmän poliittisten asiakysymysten käsittelyyn, kun taas Facebook oli kampanjoinnin ja mobilisoinnin areena. Tulokset liittyvät läheisesti viimeaikaiseen keskusteluun sosiaalisen median alustojen välisestä eroista, ja tukevat myös Mari Tuokon gradussa tehtyjä havaintoja.

Voidaan olettaa, että viestinnän tyyliin ja aiheisiin vaikuttavat myös alustojen teknologiset ominaisuudet. Esimerkiksi Twitterissä tunnetusti on rajoitettu 140 merkin määrä sekä viesteissä että vastuksissa, kun taas Facebookissa viestit sekä vastaukset voivat olla paljon pidempiä. Lisäksi Twitter oli vielä vaalien alla suoraviivainen julkaisumekanismissaan – uusimmat viestit ylimpänä – kun taas Facebook kuratoi sisältöä algoritmisesti.

Koska molemmat palvelut ovat myös sosioteknisiä järjestelmiä, myös ihmiset vaikuttavat viestinnän käytäntöihin. Esimerkiksi yleisön kokoonpano tai ehdokkaiden oletukset yleisöjen tyypistä vaikuttavat viestintään. Suomen tapauksessa on ensinnäkin syytä muistaa, että Twitter on enemmän eliittimedia (Vainikka & Huhtamäki, 2015) kun taas Facebook on tavallisten kansalaisten areena.

Viimeisenä todettakoon, että harmiksemme (vaikuttajalaskelman kannalta) oli vain muutamia teemoja jotka esiintyivät useassa mediakanavassa: turvallisuuspolitiikka, talous, koulutus ja energiakeskustelut. Ehkäpä on niin, että julkisuuteen vaalien alla mahtuu vain muutama isompi teema, joista sekä ehdokkaat, media että kansalaiset keskustelevat.

Kokonaisuudessaan olen varsin tyytyväinen siihen, mitä kaikkea teemajakumasta saatiin nyhdettyä irti kun sitä tarpeeksi tuijotettiin. Mitä siis opimme? Ei koskaan pidä kyseenalaistaa viimisten iltojen paniikkia osana pohdintaa ja tulkintaa. Toivottavasti käsikirjoituksemme saadaan pian julkaistua, niin voimme linkata sen tänne   myöhemmin kokonaisuudessaan.

(Yhteiskirjoittanut: Matti Nelimarkka & Salla-Maaria Laaksonen)