Smarter Social Media Analytics -hanke starttaa joulukuussa

4601859272_4228421089_z
Kuva: Matt Wynn

Saimme viime viikolla virallisesti tiedon, että Tekes rahoittaa projektiamme Smarter Social Media Analytics, jossa yhdessä yrityskumppaneiden kanssa lähemme nimen mukaisesti rakentamaan fiksumpaa sosiaalisen median analytiikkaa – tavoitteena tutkia ja kehittää uusia menetelmiä trendien ja ilmiöiden tunnistamiseen laskennallisesti sosiaalisen median tekstimassoista.

Hankkeen toteuttavat Kuluttajatutkimuskeskus KTK (HY) ja Tietotekniikan tutkimuslaitos HIIT (HY), ja rajapintalaisista mukana projektissa virallisesti ainakin Salla, Matti ja Arto. Alla hankkeen tiivis kuvaus tutkimussuunnitelmasta. Huraa!

**

Sosiaalisessa mediassa vahvistetaan ja rakennetaan yrityksiin, organisaatioihin ja brändeihin liittyviä käsityksiä ja jaetaan niihin liittyviä kokemuksia. Digitaalinen mediaympäristö tarjoaa mahdollisuuden seurata ja tutkia eri toimijoihin kohdistuvia arvioita, arvosteluja, kokemuksia ja tuntemuksia laskennallisesti. Tässä hankkeessa rakennamme isojen verkkoaineistojen avulla menetelmiä keskusteluissa syntyvien ilmiöiden ja trendien automaattiseen, reaaliaikaiseen tunnistamiseen.

Käytössämme ovat satojen miljoonien viestien laajuiset sosiaalisen median aineistot: Suomi24-verkkoyhteisön koko keskusteluaineisto, Futusome Oy:n keräämä satojen miljoonien viestien kokoinen aineisto suomenkielistä sisältöä eri sosiaalisen median palveluista. Näiden lisäksi hyödynnämme Taloustutkimus Oy:n keräämiä edustavia kyselytutkimusaineistoja ja isoja media-arkistoja. Näitä aineistoja rinnastamalla pystymme rakentamaan ja validoimaan algoritmeja, joiden avulla nousevia trendejä ja ilmiöitä on mahdollista koneoppimisen avulla tunnistaa verkkokeskusteluista. Laskennallisen data-analyysin ja sitä tukevan laadullisen analyysin ohella hankkeessa kerätään laadullista havainnointi- ja haastatteluaineistoa toimintatutkimuksellista näkökulmaa käyttäen.

Tutkimuskokonaisuus limittyy osaksi sekä laskennallisen yhteiskuntatieteen kehittymistä Suomessa että sosiaalisen mediaa hyödyntävien yritysten (ns. asiakasyritykset) diagnostisten valmiuksien parantamiseen tähtäävää valmentamista. Tutkimuksellinen näkökulma varmistaa myös analytiikan sikäli viisaamman kehittämisen, että analytiikka huomioi sosiaalisen median aineistojen käyttöön liittyvät eettiset ja taloudelliset näkökulmat myös tavallisten käyttäjien näkökulmasta.

Helsingin yliopiston Kuluttajatutkimuskeskuksen ja Tietotekniikan tutkimuslaitos HIIT:in yhteistyötahoina hankkeen valmistelussa ovat olleet Aller Media Oy, Taloustutkimus Oy ja Futusome Oy (ns. analytiikka- ja aineistoyritykset jotka osallistuvat hankkeeseen työpanoksellaan ja aineistoilla). Lisäksi konsortiossa mukana ovat pienemmät kasvuvaiheen analytiikkayritykset (Underhood.co, Sometrik, Leiki, Arvo Partners, myös Futusome), jotka osallistuvat hankkeeseen työpanoksellaan ja luovuttamalla tutkimusaineistoja tutkijoiden käyttöön, sekä isommat asiakasyritykset (Atria Suomi Oyj, Ilmarinen Keskinäinen Vakuutusyhtiö Oy, SOK, TeliaSonera Oyj, myös Aller ja Taloustutkimus), jotka osallistuvat hankkeeseen rahapanoksella. 

How big is the platform economy? Four key takeaways from Pew Research’s new report on gig work, online selling and home sharing

One question I get asked a lot and always find difficult to answer is how big is the platform economy.

The question is tricky to address, since there is no simple and agreed-upon definition of what even constitutes the platform economy. Pew Research Centre’s new report on gig work, online selling and home sharing does, however, provide us with some useful insight into the prevalence of earning money from digital ‘gig work’ platforms among adults in the US. While the report doesn’t speak to the situation in Finland or Europe, having a baseline is a helpful starting point.

Here are four key takeaways summarized from the report – and a short remark on what the report does not address.

1. Almost a quarter of American adults have earned money in the “platform economy” over the last year: First, nearly one-in-ten Americans (8%) have earned money in the last year using digital platforms to take on a job or task: 5% of Americans indicate that they have earned money from a job platform in the last year by doing online tasks (including but not limited to IT work, taking surveys, and doing data entry). Some 2% of Americans have earned money by driving for ride-hailing services, while 1% each have used these platforms to perform shopping or delivery tasks, as well as cleaning or laundry tasks. Second, nearly one-in-five Americans (18%) have earned money in the last year by selling something online. The largest share of online sellers are using digital platforms to sell their own used or second-hand goods, but others use these sites to sell a wide range of handmade items and consumer goods. Third, 1% have rented out their properties on a home-sharing site. To sum across these three types of activities, some 24% of adults in the US have earned money in the platform economy over the last year.

2. There are significant differences between those earning money from labor platforms (where value is created primarily through investing time and effort) vs capital platforms (where value is created primarily by making goods or possessions available): First, participation in labor platforms is more common among blacks and Latinos than among whites, more common among those with relatively low household incomes than those with relatively high household incomes, and more common among young adults than any other age group. Second, when it comes to capital platforms such as online selling, the reverse is true: Online selling is more prevalent among whites than blacks, more common among the well-off and well-educated than those with lower levels of income and educational attainment, and is engaged in by a relatively broad range of age groups.

3. Earnings from the platform economy mean different things to different people. The meaning of these earnings varies both between and within particular platforms: First, users of labor platforms and capital platforms express different levels of reliance on the income they earn from these sites. More than half of labor platform users say that the money they earn from these sites is “essential” or “important” to their overall financial situations. The same is true of just one-in-five online sellers (20%). Second, in the case of gig work, workers who describe the income they earn from these platforms as “essential” or “important” are more likely to come from low-income households, to be non-white and to have not attended college. They are less likely to perform online tasks for pay, but more likely to gravitate towards physical tasks such as ride-hailing or cleaning and laundry. They are also significantly more likely to say that they are motivated to do this sort of work because they need to be able to control their own schedule or because there are not many other jobs available to them where they live.

4. The broader public has decidedly mixed views about jobs in the emerging gig economy. A majority of Americans feel that these jobs are good options for people who want a flexible work schedule (68%) or for older adults who don’t want to work full time any more (54%). Yet, around one-in-five feel that these jobs place too much financial burden on workers (21%) and let companies take advantage of workers (23%), while just 16% feel that this type of work offers jobs that people can build careers out of.

+1 What does this report not talk about? Pew’s new report is a useful starting point to quantifying the prevalence of earning money from digital ‘gig work’ platforms, even if it focuses only on adults in the US. Taken my particular interests in peer-to-peer exchange and home sharing (aka network hospitality), what I was most missing in this report were insights into participation in initiatives that promote non-monetary co-use of resources (e.g. tool libraries or not-for-profit borrowing and lending of physical goods) instead of just online selling, and the non-monetary exchanges that go on in the scope of home sharing (such as network hospitality arranged via the Couchsurfing platform but also the social exchanges that are sometimes facilitated by the initial financial exchanges that structure home sharing via services like Airbnb). This report did not set out to investigate such questions, but hopefully a future one will. To fully appreciate the difference platform economies make in people’s lives, it is important to include the non-monetary activities in the equation, too.

For further reading:
Gig Work, Online Selling and Home Sharing (pdf, full version of the Pew Research report discussed in this blogpost)
The Online Labour Index (the first economic indicator that provides an online gig economy equivalent of conventional labour market statistics, developed at the Oxford Internet Institute)

Our prior research on network hospitality:
Lampinen, A. & Cheshire, C. (2016) Hosting via Airbnb: Motivations and Financial Assurances in Monetized Network Hospitality. CHI’16 Proceedings of the annual conference on Human factors in computing systems. ACM New York, NY, USA.

Lampinen, A. (2016) Hosting Together via Couchsurfing: Privacy Management in the Context of Network Hospitality. International Journal of Communication, 10(2016), 1581–1600.

Ikkala, T., & Lampinen, A. (2015) Monetizing Network Hospitality: Hospitality and Sociability in the Context of Airbnb. CSCW’15 Proceedings of the ACM 2015 conference on Computer supported cooperative work. ACM New York, NY, USA.

Lampinen, A. (2014) Account Sharing in the Context of Networked Hospitality Exchange. CSCW’14 Proceedings of the ACM 2014 conference on Computer supported cooperative work. ACM New York, NY, USA.

Trump ja sosiaalisen median analytiikka

screen-shot-2016-11-14-at-17-34-50
Screenshot from Tagboard.

Yhdysvaltain presidentinvaalit ja sosiaalisen median osuus niissä ovat herättäneet viime päivinä paljon keskustelua. Debatti kiteytyy kahden teeman ympärille. Ensinnäkin, mitä sosiaalisen median kuplautumisesta kertoo se, että Donald Trumpin voitto tuli monelle yllätyksenä. Toisekseen, olisiko Trumpin voiton voinut ennustaa sosiaalista mediaa seuraamalla?

Avaan tässä postauksessa jälkimmäistä kysymystä eli sosiaalisen median roolia ja analytiikkaa vaalivoiton ennustuksessa. YLE julkaisi tästä vastikään jutun, jossa oli hyödynnetty Ezyinsightsin analytiikkaa, ja johon itsekin kommentoin. Puhuin samasta tematiikasta myös viime maaliskuussa valtiotieteellisessä tiedekunnassa järjestetyssä USA:n vaalit -luentosarjassa sekä Helsingin Sanomien toimittajan kanssa myöhemmin toukokuussa.

Jo maaliskuussa oli selvää, että millä tahansa sosiaalisen median mittarilla Trump on vaalien voittaja – vaikka silloin mukana kisassa olivat vielä kaikki esivaaliehdokkaat. Kuten Ezyinsightsin analytiikka osoittaa, sama näkyi monella mittarilla myös vaalisyksynä.

Sosiaalisen median analytiikan ongelma on kuitenkin se, että se antaa helposti kivoja numeroita, joiden päälle voi perustaa väittämiä. Tämä pätee erityisesti palveluiden kuten Facebookin itsensä antamiin tietoihin.

Facebook mittaa viesteihin “sitoutumista” (engagement, termi ei oikein käänny kunnolla suomeksi), joka on käytännössä kaikkien sen viestin aiheuttamien reaktioiden (kommentit, tykkäykset, jaot) yhteissumma. Twitter puolestaan kertoo impressions-luvun, joka mittaa twiitin potentiaalisesti nähneiden silmäparien määrää.

Molemmat ovat ongelmallisia mittareina. Twitterin impressioluku kertoo suurimman mahdollisen yleisön määrän twiitin saamilla reaktioilla, mutta ei mitään todellisista lukijoista. Facebookin “sitoutuminen” puolestaan on jonkinlainen kiinnostuksen mittari, mutta lopulta vain numero, jolla ei ole mitään laadullista sisältöä.

Puhtaan määrällisistä mittareista on kuitenkaan vaikea sanoa mitään yleisöjen suhteen tai kiinnostuksen laadusta. Todennäköisesti monet ovat seuranneet Trumpia myös mielenkiinnosta tai kauhistuksesta – hän on ollut melkoinen mediailmiö viimeisen ainakin vuoden ajan sekä perinteisessä että sosiaalisessa mediassa. Moni on varmasti seurannut ja jakanut Trumpin tekemisiä myös kauhistellakseen hänen lausuntojaan.

Emme siis voi lukujen perusteella sanoa mitään niistä tulkinnoista tai syistä, miksi ihmiset tiettyä videota tai päivitystä katsovat ja klikkaavat.

Juuri tästä syystä menestystä sosiaalisessa mediassa on aika vaikea määritellä. Seuraajia ja tykkääjiä on, mutta heidän motiiveistaan emme tiedä mitään. Toimijan näkyvyyteen jokainen kriittinenkin klikki kuitenkin väistämättä vaikuttaa, sillä sosiaalisen median julkisuus suosii suositumpaa ja nostaa reaktioita herättäneitä viestejä ja uutisia ihmisten uutisvirtoihin.

Ongelmallista on myös se, että mikään sosiaalisen median alusta ei ole edustava otos väestöstä. Varsinkaan jollakin alustalla aktiivisesti toimivien otos ei ole edustava, vaan vinoutunut vähintäänkin poliittisen kiinnostuksen tai teknologisten taitojen perusteella. Esimerkiksi Yhdysvalloissa Facebookia käyttää 68% aikuisväestöstä, mutta valtaosa heistä on todennäköisesti epäaktiivisia.

Tutkimuksissa sosiaalisen median metriikoiden ja äänestystulosten välistä yhteyttä ei olla saatu luotettavasti osoitettua. Tulevaisuudessa tilanne saattaa parantua erilaisten tekstinlouhinnan menetelmien (esim. sentimenttianalyysi) yleistyessä ja arkipäiväistyessä.

Sitä odotellessa vaikuttaa tällä kertaa siltä, että sosiaalinen media oli hiukan enemmän oikeassa kuin gallupit, mutta yllämainituista syistä rohkenen väittää, että se kertoo enemmän sattumasta ja Trumpista hybridinä mediailmiönä. Kuten Hesarille totesin: “Näissä vaaleissa Trump on täydellinen klikkisampo ja tämän ajan mediamagneetti. Hän suoltaa suoraan twiiteiksi ja klikkiotsikoiksi sopivia iskulauseita, ja sopii siksi mediakoneiston tarpeisiin erittäin hyvin.”

Yhteensä opimme sen, että poliittinen todellisuus ja ihmisten käyttäytyminen on monimutkaisempaa kuin mitä sosiaalisen median analytiikka tai gallup-kyselyt osaavat selvittää. Onhan se myös jollakin tapaa lohdullista ainakin näin yhteiskuntatieteilijälle.

– –

ps. Laadullinen tutkija minussa uskoo, että Trumpin sosiaalisen median menestystä selittää yleisen mediailmiön lisäksi kaksi asiaa: taitavat retoriset keinot ja aitous (authenticity) tai ainakin aidolta vaikuttava, kansaan vetoava viestintä. Aitouden vetovoimaa on tutkittu goffmanlaisittain Internetin sosiaalipsykologiassa, myös politiikan ja kampanjoinnin kontekstissa.

pps. Trumpista ja sosiaalisesta mediasta huomenna aamulla juttua ainakin Huomenta Suomessa ja YLEn Ykkösaamussa, äänessä Digivaalit-projektin Mari Marttila!

DCCS October meetup: topic models, data economy and computer vision

Last Friday our Rajapinta/DCCS meetup was organized for a third time. We were kindly hosted by Aleksi Kallio and CSC IT Center for Science. CSC is a non-profit company owned by the state of Finland and administered by the Ministry of Education and Culture. CSC maintains and develops the centralised IT infrastructure for research, libraries, archives, museums and culture. Their services have mostly been used by researchers in sciences or life sciences, but recently we have been discussing and collaborating with them in social sciences, especially computational social sciences as well. For instance, the data processing in Digivaalit 2015 was mostly done on CSC servers.

In the meetup we had three presentation each followed by a lively discussion.

dccs2810-matti.gifFirst, Matti Nelimarkka discussed topic models and the ways how to employ them in social sciences, and in particular the different ways of selecting the “k”, i.e. the number of topics you want to extract from the data.

Computer science uses measures such as loglikelihood, perplexity or gibbs sampler to find the best estimate for k. Social science people, however, often select a few k numbers, check and compare the results (i.e., word lists) and using some heuristics pick the one that seems best.

Matti ran an experiment to where he asked participants to examine topic model results from a given data set for 10-30 k’s and select the k that seemed to best with the given research problem. After this, the participants were interviewed about the process they used to select the k.

There were some general heuristics all participants seemed to use: they first, tried to avoid overlapping topics (if they existed, they cut down the number of topics) and second, tried to avoid topics that seem to include multiple themes (and increased the number of topics in such cases). Most importantly, all the five participants selected a different k with a large variance.

Hence, results show a sort of method opportunism in selecting the k of topics: depending on what people want to find from the data they perceive it differently. Matti’s suggestion is, that computational methods should be used to select the k.

*

dccs2810-tuukka.gifNext, Tuukka Lehtiniemi discussed the troublemakers of data economy based on a manuscript he’s preparing. As troublemakers he refers to players who disrupt the market and gain ground by acting against the normal way of doing things. In normal business markets such actors would be Spotify, Uber, Igglo, or Onnibus – or national broadcasting companies such as YLE for commercial media.

But what is the conventional mode or the market in data economy? The market is to a large extent defined by the large players known as “le GAFA”: Google, Amazon Facebook and Apple. Their business is mostly based on datafication, which means turning social behaviour into quantifiable data (see e.g., Mayer-Schönberger & Cukier, 2013). Such data is born online within these services based on the activities of the users. The markets that exist upon this data are largely base on selling audience data to advertisers and various third party data services. Tuukka, following Shoshana Zuboff’s thoughts, calls this surveillance capitalism.

In his paper, Tuukka examines three potential alternatives to the surveillance model: two commercial startup initiatives (Meeco and Cozy Cloud) and a research-originated one (OpenPDS developed at MIT). These cases are explored to identify overarching features they strive to achieve in relation the above questions. The identified new roles for users are data collector, intermediary of data between services, controller of data analysis, and source of subjective data.

A version of the related paper is available on the Oxford Internet Institute IPP conference site.

*

dccs2810-markus.gifIn the third presentation Markus Koskela from CSC presented some recent advances in automated image analysis tools – or as he neatly put it, analyzing the dark matter of the internet.

Automated image analysis is commonly done nowadays using machine learning and deep neural networks. A big leap forward has been taken around 201,2 made possible by first, the availability of open visual data, second availability computational resources, and third, some methodological advances. From a machine learning perspective there is nothing completely new but a few simple tricks to improve visual analysis.

Nowadays lots of open source tools are available for visual analysis: codes available in GitHub, pre-trained networks are openly available, several annotated datasets to use in the analysis (e.g. Imagenet, Google Open Images). Markus recommends Keras (keras.io) as his favorite choice, and mentioned TensorFlow and Theano as other usable tools.

As a final note of caution Markus reminded that researchers still haven’t solved what vision actually is about. It’s always that particular data set or a particular task, where a computer vision solution works, but generalization is very difficult. For example he presented some funny results of image recognition algorithms’ work in the sample images from Google Research’s automated caption generator: algorithm can’t tell the difference between a traffic sign with stickers and an open refrigerator, if the light sheds over the sign in a particular way (same pics available in this Techcrunch article)

*

Next DCCS meetup will be held in Tampere on November 25th in connection with the Social Psychology Days – stay tuned!

Väline on osa agendaa eduskuntavaaleissa 2015

Aiheet eri mediakanavissa. Klikkaa suuremmaksi.

Eräänä iltana ryhmä Digivaalit 2015-hankkeen tutkijoita oli kokoontunut Mattermostiin juonimaan uusinta artikkeliluonnosta vaikuttaja-indeksistä ja agendan normalisoitumisesta. Analysoidessamme ehdokkaiden vaikuttajuutta eri medioiden agendaan olimme aiemmin kirjoittaneet myös kuvailleet aiheiden esiintymistä eri viestintävälineissä. Artikkelikäsikirjoituksessa teemajakauman rooli oli ollut enemmänkin kuvaileva, mutta nyt ryhdyimme pohtimaan, saisiko siitä sittenkin nostettua havaintoja – ja tasapainotettua artikkelia, joka oli aika valtaindeksiin keskittynyt ja vähän hassun muotoinen sen takia.

Mielestäni “iltavuoro” on paras aika tälläiseen työhön. Silloin voi tuijotettaan ja pohtia melko rauhassa asioita, tällä kertaa arvioida mitä taulukossa oikeasti olikaan esillä. Yön aikana syntyneet havainnot olivat – ainakin minun mielestäni – kiinnostavia.

Taulukosta nähdään, kuinka perinteinen media on selvästi poliittiseen asiasisältöön keskittynyttä, kun taas sosiaalinen media, niin ehdokkaiden kuin kansalaisten käyttämänä, korosti kampanjointia ja mobilisointia. Tämä ei ehkä ole kovinkaan yllättävää, sillä journalistinen, toimitettu sisältö on aina erityistä. Sen sijaan yllättävää voi olla asiasisältöjen moninaisuus perinteisessä mediassa. Kun sosiaalisessa mediassa keskusteltiin vain muutamista asiasisällöistä, oli toimituksellinen sisältö paljon rikkaampaa ja moniäänisempää. Näyttäisi siis siltä, että aiheiden monipuolisuuden näkökulmasta perinteiselle medialle on paikkansa.

Toisaalta ehdokkaiden Twitter- ja Facebook-aiheissa oli eroja. Ehdokkaat käyttivät Twitteriä enemmän poliittisten asiakysymysten käsittelyyn, kun taas Facebook oli kampanjoinnin ja mobilisoinnin areena. Tulokset liittyvät läheisesti viimeaikaiseen keskusteluun sosiaalisen median alustojen välisestä eroista, ja tukevat myös Mari Tuokon gradussa tehtyjä havaintoja.

Voidaan olettaa, että viestinnän tyyliin ja aiheisiin vaikuttavat myös alustojen teknologiset ominaisuudet. Esimerkiksi Twitterissä tunnetusti on rajoitettu 140 merkin määrä sekä viesteissä että vastuksissa, kun taas Facebookissa viestit sekä vastaukset voivat olla paljon pidempiä. Lisäksi Twitter oli vielä vaalien alla suoraviivainen julkaisumekanismissaan – uusimmat viestit ylimpänä – kun taas Facebook kuratoi sisältöä algoritmisesti.

Koska molemmat palvelut ovat myös sosioteknisiä järjestelmiä, myös ihmiset vaikuttavat viestinnän käytäntöihin. Esimerkiksi yleisön kokoonpano tai ehdokkaiden oletukset yleisöjen tyypistä vaikuttavat viestintään. Suomen tapauksessa on ensinnäkin syytä muistaa, että Twitter on enemmän eliittimedia (Vainikka & Huhtamäki, 2015) kun taas Facebook on tavallisten kansalaisten areena.

Viimeisenä todettakoon, että harmiksemme (vaikuttajalaskelman kannalta) oli vain muutamia teemoja jotka esiintyivät useassa mediakanavassa: turvallisuuspolitiikka, talous, koulutus ja energiakeskustelut. Ehkäpä on niin, että julkisuuteen vaalien alla mahtuu vain muutama isompi teema, joista sekä ehdokkaat, media että kansalaiset keskustelevat.

Kokonaisuudessaan olen varsin tyytyväinen siihen, mitä kaikkea teemajakumasta saatiin nyhdettyä irti kun sitä tarpeeksi tuijotettiin. Mitä siis opimme? Ei koskaan pidä kyseenalaistaa viimisten iltojen paniikkia osana pohdintaa ja tulkintaa. Toivottavasti käsikirjoituksemme saadaan pian julkaistua, niin voimme linkata sen tänne   myöhemmin kokonaisuudessaan.

(Yhteiskirjoittanut: Matti Nelimarkka & Salla-Maaria Laaksonen)

Hackathons in Finland: free labor or open innovation?

Those following the Finnish technology scene have most likely observed that hackathons are this year’s megatrend. Everyone seems to be organizing a hackathon to get developers work with problems. You know, digitalisation is coming and everyone – public sector, private sector – need solutions that revolutionalize their operations using digitalisation … and hackathon is one of the trendy ways to bring digitalization gurus to the organization.

As an old-time hackathon participant, I have certain doubts about the whole concept, but as they are trendy, I think I should have something to say about them. I think we’re using hackathons in rather interesting ways – such as supplement procurement of software in public administration – which have some merits. However, there are also cases which seem more as exploitation of participants. I will first shortly address the academic literature around hackathons after which I move to my rant about hackathons.

What do we know about hackathons?

Sadly, the scholarly literature is still emerging around the whole phenomena (and, will most likely be fully developed only after hackathons are passé). But, let’s give it a try anyway and see what we know about hackathon based on the existing works.

Overall, hackathons can be technology-oriented (i.e., focus on particular platforms) or focused on problems; in particular solving societal problems in issue-based hackathons (Lodato & DiSalvo, 2016). These issue-based hackathons can serve multiple purposes; Johnson & Robinson (2014) see these type of hackathons mixed of a procurement process, civic engagement and innovation taking place. What these findings indicate is that people have motivations beyond just hacking things together; like improving the society or to make their views more concrete.

In general, hackathons have three phases; pre-hackathon, hackathon, and post-hackathon. Hackathons are intense collaborations require participants to set up the goals of the hack and the means of collaboration, including work processes. The hackathon itself is a face-to-face activity where participants work together intensively, but can also seek help from others in the team and engage in iterative development and critique. The challenge with post-hackathon activities is to continue with the same team without the collocated settings, as often the hacks need more love to be ready (Lodato & DiSalvo, 2016, Trainer et al., 2016).

Matti’s rant about some recent hackathons and challenges in Finland

Hackathons are a great way to bring bright people together to create something cool. While the process itself is difficult – as seen in above discussed literature – it may be rewarding for participants. Furthermore, at least my experience, hackathons are a great way to get uninterrupted thinking time for a problem in a creative manner. Having space, catering and time reserved in the calendar make it easy to focus on the problem.

In my view, the best hackathons have a somewhat open goal, allowing the developers to take different angles to the problem and demonstrate a variety of approaches, or to invent something new. Usually, the organizers in these cases seek out questions like “what is possible?” and in best cases contribute their skills and knowledge to help hackers. However, I’ve recently seen the term hackathon being used for events I don’t think live up to my ideals.

Hackathons and challenges should not be cheap software development

Some hackathons are organized with a super-specific goal already defined. In the Open Finland Challenge this year, there was a challenge organized by Aller Media, with the goal of

We want to add location data for discussions by offering the user an opportunity to find relevant information about ones’ surroundings. [shortly translated]

When reading this, I think the jury already had a rather clear vision of what they want to get as an outcome. Naturally, you can break the rules – and I did ask this in when the challenges were made public – it’s OK to hack whatever you want. But the jury will naturally read the challenge also. Just compare the challenge made by YLE in the same challenge competition

YLE has opened Elävä arkisto Data through an API. What interesting can you build using this information – maybe a new service to a special user group or something totally new? [shortly translated]

I think this challenge is open-ended, allowing participants to work in rather creative ways with the data. This aligns more within the ideas like open innovation, exposing the company to new ideas and approaches, and the creativity of hackathons. The former instead sounded to me that they might just want to consult a software company to produce a prototype of their idea and test it.

Hackathons and challenges should not be cheap consulting

The more recent case of this was from LähiTapiola Hack, where the goal was to develop “new digital solutions for inspiring young people to save and invest money. During the 5-day business hackathon teams will develop a new business or product concept for LähiTapiola (LocalTapiola), and finally pitch it to a jury consisting of LähiTapiola executives and business angels.”

I think this is a nicely open-ended problem to hack with, giving rather free hands to work with. There is opportunity for true creativity. However, in a closer look at the hackathon policies showed that there was something fishy about the IPR.

In hackathons I’ve attended, the IPR usually belongs to participants or its considered to become public domain. In this hackathon, instead, the conceptual innovations (whatever those are) are explicitly stated to belong to hackathon organizers if they emerge from data and materials by LähiTapiola. This means that these guys get free business consulting and ideas by buying food, space and 5,000 € reward for the winning team. If you want my ideas, you can just contact my consulting firm and we’ll discuss my pricing in detail. Or as it seems, they are actually incubating some business opportunities and startups for them – weirdly called a hackathon.

How to move forward?

I think the first step is to ensure we don’t call all things hackathons or challenges just to look trendy. If you aim to incubate startups or run public procurement, are you really doing a hackathon or something else which may have similar characteristics of a hackathon – collocated fast-paced and solution centric work, aiming to produce some concrete outcome by the final day. I would even avoid the name hackathon for everything that’s not what I would call traditional hackathon, a day or two of hard work in open context – just to make sure you don’t market the event in a wrong manner and get weirdos like me attending.

Second, if you’re sure you’re organizing a traditional hackathon, check that your hackathon task is semi-open to participation. Naturally, seasoned hackathon participants know how to read the tasks in an open manner and produce something cool. But it might be more inviting even for them if they can see that the organizer is truly seeking something novel and cool. Remember that hackathons, as I see them, should be much about open collaboration, open innovation and facilitating great minds to come together.

Finally, have some answer to the question ‘what next?’ If there are ideas the hackathon participants want to move further, how can your organization support those moving forward? I do have good experiences of these, including seed investment from organisations to develop the quick proof of concept into a true product and even launching those. And if you have plans like this, remember to tell about those beforehand and check you continue to support teams throughout the further process as well.

Acknowledgement

I was motivated to write this post thanks to the poor case from LähiTapiola hack and discussions with my nerd friends in the #fixme-irc channel. All views presented in this text are naturally my own and may not reflect the #fixme-community, the Rajapinta-community, my employer, my supporters, nor the future self.

Cross-posted to my personal blog, Science & Industry.

Digivaalit 2015 Studia Generaliassa

Syksyn 2016 Studia Generalia eli Helsingin yliopiston perinteikäs yleisöluentosarja starttasi 6. lokakuuta teemalla “Mikä Big Data?”. Puhumassa olivat digitaalisten aineistojen tutkimuksen professori Timo Honkela sekä minä, verkkoviestinnän tutkija Salla-Maaria Laaksonen otsikolla “Digivaalit 2015: Mitä isot digitaaliset aineistot kertovat yhteiskunnasta ja vaikuttamisesta?“.

Illan teemana oli siis erityisesti pohdinta siitä, miten isot digitaaliset aineistot muuttavat humanistisia ja yhteiskuntatieteitä. Omassa esityksessäni kerroin siitä, miten verkkoviestintä jättää erilaisia digitaalisia jälkiä ihmistoiminnasta, ja nämä jäljet antavat uudenlaisia tutkimusmahdollisuuksia myös yhteiskuntatieteiden näkökulmasta. Samalla uudet aineistot vaativat menetelmätaituruutta: tyypillisesti laskennallisen yhteiskuntatieteen asetelmissa tavalla tai toisella isot tekstiaineistot kääntyvät numeroiksi, joita sitten konteksti mielessä pitäen pyritään tulkitsemaan. Samaan aikaan small data on kuitenkin myös merkityksellistä: ilmiöiden syvällinen ymmärtäminen melkeinpä vaatii, että ainakin pieniä osia aineistosta tutkitaan myös perinteisin laadullisin menetelmin. Ihan vielä ihmisten tuottaman teksin äärellä ei uskalla luottaa pelkkään tietokoneeseen.

Ensi viikolla SG:ssä teemana muuten konepuheen matematiikka ja vuorovaikutus!

screen-shot-2016-10-14-at-11-47-48