Hate speech detection with machine learning — a guest post from Futurice

This blog post is a cross-posting from Futurice and written by Teemu Kinnunen (edits, comments and suggestions given by project participants Matti and Salla from Rajapinta)

* *

(Foreword by Teemu Turunen, Corporate Hippie of Futurice)

The fast paced and fragmented online discussion is changing the world and not always to the better. Media is struggling with moderation demands and major news sites are closing down commenting on their articles, because they are being used to drive an unrelated political agenda, or just for trolling. Moderation practice cannot rely on humans anymore, because a single person can easily generate copious amounts of content, and moderation needs to be done with care. It’s simply much more time consuming than cut and pasting your hate or ads all across the internet. Anonymity adds to the problem, as it seems to bring out the worst in people.

Early this year the nonprofit Open Knowledge Finland approached [Futurice] with their request to get pro bono data science help in prototyping and testing a machine learning hate speech detection system during our municipal elections here in Finland.

The solution would monitor public communications of the candidates in social media and attempt to flag those that contain hate speech, as it is defined by the European Commission and Ethical Journalism Network.

The Non-Discrimination Ombudsman (government official appointed by our government to oversee such matters) would review the results. There are also university research groups involved. This would be an experiment, not something that would remain in use.

After some discussion and head scratching and staring into the night we [at Futurice] agreed to take the pro bono project.

A tedious and time consuming repetitive task is a good candidate for machine learning, even if the task is very challenging. Moderation by algorithms is already done, just not transparently. An example? Perspective API by Jigsaw (formerly Google Ideas) uses machine learning models to score the perceived impact a comment might have on a conversation. The corporations that run the platforms we broadcast our lives on are not very forthcoming in opening up these AI models. The intelligence agencies of course even less so.

So we feel there’s a need for more open science. This technology will reshape our communication and our world. We all need to better understand its capabilities and limitations.

We understand that automatic online discussion monitoring is a very sensitive topic, but we trust the involved parties – specifically the non-discrimination ombudsman of Finland – to use the technology ethically and in line with the Finnish law.

In this article [Futurice’s] Data Scientist Teemu Kinnunen shares what we have done.


The hate speech detection problem is very challenging. There are virtually unlimited ways how people can express thoughts including also hate speech. Therefore, it is impossible to write rules by hand or a list of hate words, and thus, we crafted a method using machine learning algorithms.

The main goal in the project was to develop a tool that can process messages in social media and highlight the most likely messages containing hate speech for manual inspection. Therefore, we needed to design a process to find potential hate speech messages and to train the hate speech detector during the experiment period. The process we used in the project is described in Fig. 1.

Figure 1: Process diagram for hate speech detection.

At first, a manually labeled training set was collected by a University researcher. A subset from a dataset consists of public Facebook discussions from Finnish groups, collected for a University research project HYBRA, as well as another dataset containing messages about populist politicians and minorities from the Suomi24 discussion board. The training set was coded by several coders to confirm agreement of the data (kappa > .7). The training set was used to select a feature extraction and machine learning method and to train a model for hate speech detection. Then we deployed a trained model that was trained with manually labeled training samples. Next, we downloaded social media messages from a previous day and predicted their hate speech scores. We sorted the list of messages based on predicted hate speech scores and send messages and their scores to a manual inspection. After the manual inspection, we got new training samples which we used to retrain the hate speech detection model.

Feature extraction


There are many methods to extract features from text. We started with standard Natural Language Processing methods such as stemming and Bag-of-Words (BoW). At first, we stemmed words in the messages using Snowball method in the Natural Language Toolkit library (NLTK). Next, we generated a vocabulary for bag-of-words using the messages in manually labelled training samples. Finally, to extract features for each message, we computed a distribution of different words in the message i.e. how many times each word in the vocabulary exists in the message.

Some of the words appear nearly in each message, and therefore, provide less distinctive information. Therefore, we gave different weights for each word based on how often they appear in different messages using the Term Frequency – Inverse Document Frequency weighting (TF-IDF). TF-IDF gives higher importance for the words which are only in few documents (or messages in our case).

Word embeddings

One of the problems in bag-of-features is that it does not have any knowledge about semantics of words. The similarity between two messages is calculated based on how many matching words there are in the messages (and their weights from TF-IDF). Therefore, we tried word embeddings which encodes words that are semantically similar with similar vectors. For example, a distance from an encoding of ‘cat’ to an encoding of ‘dog’ is smaller than a distance from an encoding of ‘cat’ to an encoding of ‘ice-cream ’. There is an excellent tutorial to word embeddings on Tensorflow site for those who wants to learn more.

In practice, we used the fastText library with pre-trained models. With fastText, one can convert words into vector space where semantically similar words tend to appear close by each other. However, we need to have a single vector for each message instead of having varying number of vectors depending on the number of words in a message. Therefore, we used a very simple, yet effective, method: we computed a mean of word encodings.

Machine learning

The task in this project was to detect hate speech, which is a binary classification task. I.e the goal was to classify each sample into a no-hate-speech or a hate-speech class. In addition to the binary classification, we gave a probability score for each message, which we used to sort messages based on how likely they were hate speech.

There are many machine learning algorithms for binary classification task. It is difficult to know which of the methods would perform the best. Therefore, we tested a few of the most popular ones and choose the one that performed the best. We chose to test Naive Bayes, because it has been performing well in spam classification tasks and hate speech detection is similar to that. In addition we chose to test Support Vector Machine (SVM) and Random Forest (RF), because they tend to perform very well in the most challenging tasks.

Experiments and results

There are many methods for feature extraction and machine learning that can be used to detect hate speech. It is not evident which of the methods would work the best. Therefore, we carried out an experiment where we tested different combinations of feature extraction and machine learning methods and evaluated their performance.

To carry out an experiment, we needed to have a set of known sample messages containing hate speech and samples that do not contain hate speech. Aalto researcher Matti Nelimarkka, Juho Pääkkönen, HU researcher Salla-Maaria Laaksonen and Teemu Ropponen (OKFI) labeled manually 1500 samples which were used for training and evaluating models.

1500 known samples is not much for such as challenging problem. Therefore, we used k-Fold cross-validation with 10 splits (k=10). In this case, we can use 90% sample for training and 10% for testing the model. We tested Bag-of-Words (BOW) and FastText (FT) (Word embeddings) feature extraction methods and Gaussian Naive Bayes (GNB), Random Forest (RF) and Support Vector Machines (SVM) machine learning methods. Results of the experiment are shown in Fig. 2.

Figure 2: ROC curves for each feature extraction – machine learning method combination. True Positive Rate (TPR) and False Positive Rate (FRP). The FPR axis describes the ratio of mistake (lower is better) and the TPR axis describe the overall success (higher is better). The challenge is to find a balance between TPR and FPR so that TPR is high but FPR is low.

Based on the results presented in Fig. FIGEXP, we chose to use BOW + SVM to detect hate speech. It clearly outperformed other methods and provided the best TPR which was important for us, because we wanted to sort the messages based on how likely they were hate speech.

Model deployment

Based on the experiment, we chose a feature extraction and machine learning method to train a model for hate speech detection. In practice, we used the score of the binary classifier to sort the messages for manual inspection and annotation.

We ran the detector once a day. At first, we downloaded social media messages from a previous day, then predicted hate speech (scored each message) and stored the result in a CSV file. Next, we converted this CSV file to Excel for manual inspection. After manual inspection, we got new training samples which were used to retrain the hate speech detection model.

During the field experiment, we found out that the model was able to sort the messages based on the likelihood of containing hate speech. However, the model was originally trained with more biased set of samples, and therefore, it gave rather high scores also for messages not containing hate speech. Therefore, manual inspection was required to make the final decision for the most prominent messages. Further measures concerning these messages were done by the Non-Discrimination Ombudsman, who in the end contacted certain parties regarding the findings.


In a few weeks, we built a tool for hate speech detection to assist officials to harvest social media for hate speech. The model was trained with rather few samples for such a difficult problem. Therefore, the performance of the model was not perfect, but it was able to find a few most likely messages containing hate speech among hundreds of messages published each day.

In this work, training -> predicting -> manual inspection -> retraining – iteration loop was necessary, because in the beginning, we had quite limited set of training samples and the style of the hate speech can change rapidly e.g. when something surprising and big happens (A terrorist attack in Sweden happened during the pilot). The speed of the iteration loop defines how efficiently the detector works.

Hybridejä mainenarratiiveja, tunteella ja teknologialla – väitöstilaisuus 16.6.2017

Screen Shot 2017-06-06 at 00.19.27VTM Salla-Maaria Laaksonen eli allekirjoittanut väittelee 16.6.2017 kello 12 Helsingin yliopiston valtiotieteellisessä tiedekunnassa aiheesta “Hybrid narratives – Organizational Reputation in the Hybrid Media System“. Tervetuloa mukaan väitöstilaisuuteen kuulemaan akateemista debattia organisaatiomaineesta ja verkkojulkisuudesta! Alla lyhyt yhteenveto tutkimuksesta.


Tutkin väitöskirjassani sitä, miten yrityksiä ja muita organisaatioita koskevat mainetarinat muodostuvat hybridissä mediatilassa. Tutkimusongelma on kaksitahoinen: tutkin, miten uusi viestintäympäristö vaikuttaa organisaatiomaineen muodostumiseen, ja toisaalta sitä, minkälaisia kognitiivisia ja emotionaalisia vaikutuksia maineella ja mainetarinoilla on. Hybridi mediatila on viestinnän tutkimuksen tuoreehko käsite (Chadwick 2013), joka pyrkii ymmärtämään nykyistä mediamaisemaa. Hybridiys viittaa eri mediamuotojen sekoittumiseen: sosiaalisen median ja perinteisen median sisällöt ja muodot elävät verkkojulkisuudessa vahvasti sekoittuneena.

Tarkastelen väitöskirjassani hybridia mediatilaa tarinankerronnan paikkana. Tästä näkökulmasta jokainen blogikirjoitus tai twiitti on pieni kertomus, jollaisia teknologia kutsuu meitä kertomaan arjesta ja kokemuksistamme. Monet kertomuksista käsittelevät suorasti tai epäsuorasti yrityksiä ja muita organisaatioita – jolloin ne ovat määritelmällisesti mainetarinoita. Niitä on jaettu arjessa aikaisemminkin, mutta teknologia mahdolistaa uudenlaista tarinankerrontaa: tarinat leviävät lähipiiriä laajemmalle, ne arkistoituvat, ja nistä tulee etsittäviä ja muokattavia.

Osa verkon teknologioista toimiikin tarinankerronnan apuvälineinä hyvin erityisellä tavalla: ne järjestävät, kuratoivat ja muovaavat kertomuksia yhdistämällä erilaisia tarinanpalasia yhteen näkymään. Näin toimii esimerkiksi joukkovoimin ylläpidetty tietosanakirja Wikipedia tai verkon sisältöä penkovat hakukoneet. SIksi hybridissä mediassa maineen tarinankertojina toimivat sekä ihmistoimijat että teknologia yhdessä. Väitöskirjani pohjalta esitänkin, että teknologia muuttaa niitä tapoja, joilla sidosryhmät kertovat tarinoita organisaatioista. Verkkojulkisuuden alustoilla syntyvissä tarinoissa sekoittuvat paitsi eri mediamuodot, myös faktat ja mielipiteet sekä rationaalinen ja emotionaalinen sisältö.

Väitöskirjani korostaakin tunteiden merkitystä maineelle. Niin maineen tutkimuksessa kuin erilaisissa mainemittareissakin on perinteisesti keskitty rationaalisiin ominaisuuksiin: tuotteiden laatuun, johtajuuteen, taloudelliseen menestykseen. Maine näyttäisi kuitenkin olevan yhtä paljon myös emotionaalinen käsite. Organisaatioita käsittelevät kertomukset verkossa ovat hyvin tunnepitoisia: yritysten kanssa ihastutaan ja vihastutaan, niiden ympärille rakentuu faniyhteisöjä ja vihaisia kohuyhteisöjä. Teknologian ominaisuudet emoji-hymiöistä tykkää-nappulaan myös kannustavat ilmaisemaan tunteita.

Eikä tunteissa ole kyse vain ilmaisusta. Väitöskirjan osatutkimuksessa osoitettiin, että hyvä ja huono maine näkyvät eri tavoin koehenkilöiden kehollisissa reaktioissa, kun he lukevat yritystä koskevia verkkouutisia tai verkkokommentteja. Maine on siis myös tulkintakehys: tiedostamaton, kehollinen reaktio, joka ohjaa ihmisen toimintaa esimerkiksi ostoksilla valintatilanteessa.

Mainetutkimuksen näkökulmasta rakennankin työssäni uudenlaista kulmaa mainetutkimukseen. Mainetta on perintisesti tutkittu joko organisaation taloudellisena voimavarana tai tulkinnallisena elementtinä sidosryhmien mielissä. Tässä työssä määrittelen maineen viestinnällisenä ilmiönä, joka on olemassa yksilöiden tulkintakehyksenä sekä sosiaalisesti rakentuneina narratiiveina. Mainenarratiiveilla on kuitenkin myös mitattavia vaikutuksia niitä lukeviin ihmisiin ja heidän tulkintakehyksiinsä. Siksi sekä maine että mainetarinat ovat organisaatioille aineetonta pääomaa.

Väitöskirja koostuu viidestä artikkelista ja yhteenvetoluvusta. Artikkeleissa on käytetty neljää eri aineistoa: viestinnän ammattilaisten haastatteluja, sosiaalisen median verkkokeskusteluaineistoja, Wikipedia-aineistoa sekä psykofysiologisia mittauksia. Näin ollen tutkimus yhdistää metodisesti laadullista, narratiivista analyysia kokeelliseen tutkimukseen.


TLDR; “Hybridi mainetarina syntyy kun 😩 ja 👾 yhdessä käyttäen apunaan📱💻, muodostavat 📜💌📜 , jotka verkkojulkisuudessa 💾 ja 📢 ja joilla on 📉 vaikutuksia 🏭🏨 🏢:lle.” (ref. Your Research, emojified)

Väitöskirjan elektroninen versio on luettavissa E-thesis -palvelussa.

Väitöskirjaa ovat rahoittaneet Liikesivistysrahasto ja Tekes.

Juhlavuoden kunniaksi, #WikiSuomi100

Suomi täyttää tänä vuonna 100. Juhlavuodesta ja hyvistä tavoista viettää sitä voi olla montaa mieltä. Suomessa maksuttoman koulutuksen saaneena, tätä nykyä ulkomailla työskentelevänä, ja voittopuolisesti englanniksi kirjoittavana tutkijana minusta joka tapauksessa tuntuu, että jonkinlainen huomionosoitus olisi paikallaan.

Tästä lähtökohdasta syntyi idea #WikiSuomi100-kampanjasta. Kyse on uudenvuodenlupauksesta, jolla sitoutan itseni tekemään tämän vuoden aikana (vähintään) sata lisäystä ja/tai muokkausta suomenkieliseen Wikipediaan. Se ei ole paljon, mutta toivonkin tämän olevan ennen muuta yllyke toisillekin tehdä samoin – sekä lähtölaukaus meille kaikille kirjoittaa Wikipediaan enemmän ja useammin, (myös) suomeksi.

Tule mukaan! Jos olet jo aktiivinen wikipedisti, nostan hattua ja kannustan muokkaamaan haasteen sopivaksi. Voit vaikkapa keksittyä juhlavuoden kunniaksi tiettyihin teemoihin, laajentaa kotiseutujuttuja sukulaisten avustuksella, tai auttaa jonkun sellaisen haasteen kanssa alkuun, jolle Wikipedian editoiminen tuntuu vieraalta ajatukselta.

Ja jos oikein innostutaan, ehkä voitaisiin kutsua koolle Rajapinnan omat #WikiSuomi100-talkoot myöhemmin tänä vuonna!

Nyt malttia Kela – digitalisaatio ja julkinen hallinto

computer2bsays2bnoEräs työkaverini huomasi, että Kelakin on lähtenyt mukaan digitalisaatiopöhinään. Kela hienosti kuvaa, kuinka ensimmäisenä sujuvoitetaan prosesseja ja mietiään, miten tämä pitäisi tehdä; vasta tämän jälkeen asia digitalisoidaan. Samaan aikaan tekstistä kuitnekin huokuu tietty usko siihen, että palveluprosessia voi selkeyttää käyttämällä Suomessa tällä hetkellä ah-niin-trendikästä tekoälyä.

Jansson & Erlingsson (2014) kuvaavat sähköisen hallinnon (e-Government) kehittymistä Ruotsissa 1980-luvulta 2000-luvulle. Heidän mielenkiintoisin löydös liittyi useisiin yrityksiin automatisoida ja vähentää julkishallinnon asiakaspalvelun määrää: automaattiset prosessit eivät koskaan osaa tulkita sääntöjä rivien välistä sekä harkita kokonaisuutta. Toki voidaan sanoa, ettei kokonaistilanteen tulkinta ei ole ollut ennekään Kelan vahvuus, joten ehkä tässä ei menetetä mitään. On kuitenkin syytä pitää mielessä Janssonin & Erlingssonin huomio

The fact that technology does not discriminate, but treats everyone as equal, there- fore becomes both its biggest advantage and disadvantage—the former because arbitrariness can be avoided and the latter because various needs, issues, or skills are not captured

Kelan kuvaama visio digitalisaation mahdollisuuksista todellakin tuo esille sitä, että vihdoinkin on mahdollista palvella kaikki samalla tavalla ja hehkutetaan, kuinka tämä on parannus nykytilanteeseen. Esimerkiksi Kelan esimerkki siitä kuinka työttömäksi jäänyttä autetaan tulevaisuudessa näyttää tietyn deterministisyyden lähestymistavassa:

Kone voi hahmottaa esimerkiksi työttömäksi jääneen ihmisen tilannetta jatkokysymyksillä. Tiedätkö, milloin uusi työ on alkamassa? Oletko kiinnostunut koulutuksesta? Haetko työttömyysetuutta?

Tarkoitukseni ei ole kuitenkaan vain nurista tai änkyröidä. Digitalisaatiossa on paljon mahdollisuuksia prosessien yksinkertaistamisessa. Esimerkiksi automaatisoitu veroehdotus on hyvä esimerkki siitä, miten kokonaista ajatusmaailmaa voidaan kääntää kerralla oikeaan suuntaan.

Kelassakin on varmasti prosesseja, joita voi automatisoida erittäin helpposti – esimerkiksi opintotuen myöntäminen sekä lapsilisät. Näissä elämänvaiheissa ei yleensä ole muuten isoa kriisiä missä olisi syytä tarkastella koko yhteiskunnan turvaverkon toimintaa.

Mutta esimerkiksi työttömyydessä – vaikka se perusturvan myöntäminen on helppoa – voisi olla hyväksi samaan aikaan tarkastella elämää laajemmin. Olisiko syytä yrittää hakea toimeentulotukea? Miten Kelan, kunnan ja työvoimaviranomaisten palvelut muodostavat yhtenevän kokonaisuudeen? Näitä kysymyksiä ei sellaisenaan voine jättää automaation varaan, varsinkaan jos se toteutetaan mitä Neyland & Möllers (2016) kutsuivat if-then -säännöillä, eli yksinkertaisiksi “jos tämä pitää paikkansa tee näin”-mallehin. Minun ei ole mitään syytä epäilä, etteikö Kelan pyrkimys olisi tämän kaltaiseen automatisaatioon, koska kaikki ehdot voitaisiin silloin ottaa suoraan Kelan sääntelystä. Tällöin kyseessä on joustamaton ja etukäteen määritelty lähestymistapa sosiaaliturvaan.

Toki tekoälyllä voisi tehdä paljon muutakin! Voidaan mielikuva-harjoituksena miettiä osittain ohjattua tai ohjaamatonta koneoppimista sosiaaliturvan osana: sen sijaan, että säädökset sanoisivat tarkkaan, mitä tukea annetaan ja kuinka paljon, annettaisiin tekoälylle hieman vapautta säädellä itseään. voitaisiin miettiä myös muuta tapaa lähteä (mihin uskon Kelan paljon puhuman tekoälyn perustuvan; siellä tuskin on taustalla esimerkiksi pyrkimystä tehdä laajaa koneoppivaa prosessia, joka korjaisi toimintaansa huomattuaan, mitä vaikutuksia sosiaaliturvapäätöksillä oli. (Ei, en pidä tätä hyvänä ideana; mutta venytellään vähän aivoja siitä, mitä tekoälyllä voisi saada aikaan.)

Tiivistäen: digitalisaatio ei mielestäni ole sellaisenaan hyvä tai paha. Kysymys on enemmän löytää tasapaino automatisoitujen palveluiden ja automatisoimattomien palveluiden kohdalla. Koen, että sosiaaliturva on eräs alue, missä tiukka byrokratia (joko algoritmisesti tai algoritmittomasti) ei välttämättä tuota yhteiskunnan kannalta parasta lopputulosta. Sen sijaan pitäisi pyrkiä arvioimaan kokonaiskuvaa ja rakentaa tukijärjestelmiä tämän kautta – missä ihmiset ovat usein parempia kuin mikään tekoälyllinen prosessi.


Smarter Social Media Analytics Underhoodilla

IMG_20170403_161015Vietimme viikon 3.-7.4. SSMA-projektin tutkijaporukkalla startupyritys Hupparihörhön luona. Kenttätyöviikon tarkoituksena oli tutustua Hupparihörhön kehittämään Underhood-palveluun, joka mittaa yritysten mainetta sosiaalisen median dataan perustuen.

Underhood on ollut lähikuukausina uutisissa toteutettuaan Aamulehden kanssa kuntavaalitulosta Tampereella ennustavan mainemittarin. SSMA-projektin puolesta olemme kiinnostuneita tutkimaan, miten sosiaalisen median datalla voidaan mitata ja ennustaa yhteiskunnallisia ilmiöitä. Viikko Underhoodilla kuntavaalien alla tarjosi erinomaisen mahdollisuuden seurata konkreettisen tapauksen ennustamista somedatasta perehtyen samalla Underhoodilaisten näkemyksiin data-analytiikan mahdollisuuksista.

Alkuviikon aikana tutustuimme Underhoodin somedatasta yrityksille laskemaan mainepisteytykseen, joka perustuu kolmelle eri mittarinarvolle. Ensinnäkin Underhood seuraa yritysten näkyvyyttä, joka lasketaan yrityksen Facebook-sivun saamien tykkäysten ja Twitter-seuraajien määristä sekä Facebookin antamasta buzz-arvosta. Toiseksi Underhood mittaa yritysten dialogia someyleisön kanssa, joka määrittyy yrityksen keskimääräisen julkaisumäärän ja julkaisujen saamien kommenttien, tykkäysten sekä jakojen perusteella. Lisäksi dialogimittarin arvoon vaikuttaa yrityksen vastausaste saamiinsa kommentteihin. Kolmanneksi mainepisteytykseen vaikuttavat yrityksen ja yleisön käyttämien sanojen samanlaisuus ja sentimenttianalyysilla saatu yleisön kommenttien sävy. Näkyvyyttä, dialogia ja samanlaisuutta mittaavat pisteet skaalataan Underhoodissa asteikolle 0-10. Näiden pisteiden keskiarvosta lasketaan sitten varsinainen mainepisteytys, jonka arvo on myös asteikolla 0-10.

Underhood-pisteytyksen ja sen tekijöiden tarkastelussa meitä kiinnostaviksi kysymyksiksi nousivat eri mittareiden väliset suhteet ja mittauskohteet: mitä oikeastaan mitataan, kun kerätään dataa esimerkiksi yritysten ja Facebook-tykkääjien yhteisesti käyttämien sanojen määristä? Millä perustein voisimme ajatella, että somedatan pohjalta määritetyt mittarit olisivat luotettava ennustaja ilmiöille, joita koskeva uutisointi ja keskustelu eivät rajoitu sosiaaliseen mediaan?

Underhood-pisteytys on aikaisemmin ennustanut oikein esimerkiksi semifinalistien valinnan Ison-Britannian X-Factor -ohjelmassa, mutta kilpailun voittajan ennuste sen sijaan oli väärä. Yksi selitys tälle on, että ennusteen sotki kansainvälisen sosiaalisen median osoittama kiinnostus: X-Factor UK:ssa äänestäminen oli mahdollista ainoastaan Isossa-Britanniassa, mutta Underhood-pisteytys heijasteli finalistien suosiota kansainvälisellä tasolla. Tämä on esimerkki tapauksesta, jossa sosiaalisen median dataan perustuvat mittarit mittaavat ennusteen kohteesta (pärjääminen Ison-Britannian X-Factorissa) erillistä ilmiötä (suosio kansainvälisessä sosiaalisessa mediassa).

Saimme käyttöömme Underhoodin pisteytyksen perustana olevan datan, joka sisälsi eri mittareiden arvot ja näihin vaikuttavat tekijät päiväkohtaisesti tallennettuina elokuulta 2016 alkaen (dataa yhteensä 3958 yritykseltä ja poliitikolta). Viikon aikana tutkimme datan eri muuttujien riippuvuutta toisistaan ja vertasimme eri mittarinarvojen muutosta muun muassa yritysten toimialan ja liikevaihdon suhteen. Kiinnostavasti havaitsimme, että yritysten ja someyleisön kielenkäytön keskinäinen samanlaisuus korreloi yritysten julkaisujen saaman kommenttimäärän kanssa. Tämä viittaisi siihen, että samanlaisuusmittari saattaa kuvata käytetyn kielen yhteneväisyyden lisäksi myös keskustelun volyymia sosiaalisessa mediassa.

Eri sosiaalisen median dataan perustuvien mittareiden välinen “työnjako” vaikuttaisi olevan yksi merkittävä tekijä ilmiöiden ennusteiden arvioissa. Ennusteen luotettavuuden arvioinnissa on tärkeää tietää, mitä ilmiön puolia eri mittarit mittaavat. Erillisiä mittareita käytettäessä olisi hyvä varmistua, että ilmiön eri puolia mittaavat pisteytykset eivät riipu keskenään samoista tekijöistä, kuten esimerkiksi keskustelun aktiivisuudesta. Näin mittareiden keskinäisen tärkeyden tai painotuksen arviointi selkeytyy ennustetta muodostaessa.

Underhoodin mittareiden keskinäiset painotukset ovat viime päivinä nousseet esille myös Aamulehden mainemittarin antamien kuntavaaliennusteiden yhteydessä. Mittarin ennusteet eivät lopulta vastanneet kuntavaalitulosta Tampereella. Aamulehdessä tämän arvioitiin johtuvan ehdokkaiden suuresta määrästä ja suhteellisesta vaalitavasta, jotka vaikeuttivat mainemittarin antamien lukujen tulkintaa. Underhoodin mukaan mittari taas olisi antanut tarkemman tuloksen, jos Facebook-tykkääjien määrää olisi painotettu nykyistä enemmän.

Keskeisellä sijalla tässäkin tapauksessa on kysymys: minkä ehtojen vallitessa voimme pitää sosiaalisen median suosiota luotettavana ennustajana vaalitulokselle? Underhoodin mainemittarin antamat ennusteet eri ilmiöistä – olivat ne sitten onnistuneita tai eivät – tuottavatkin hyödyllistä aineistoa, jonka avulla tätä ongelmaa voidaan tutkia.

Tule mukaan: ECSCW 2017 Workshop on Nomadic Culture Beyond Work Practices

Tule mukaan loppukesästä ECSCW-konferenssin yhteydessä, osin rajapintalaisin voimin, järjestettävään työryhmään:

ECSCW 2017 Workshop on Nomadic Culture Beyond Work Practices
August 29th, 2017, Sheffield, UK

************ IMPORTANT DATES ************
* Submission deadline: May 26th, 2017
* Notification of acceptance: June 16th, 2017
* Camera ready: June 30th, 2017
* Workshop day: August 29th, 2017

Workshop themes
Ten years after a successful workshop at ECSCW 2007 on a related theme, we set out to revisit the notion of nomadicity in light of recent research and empirical changes, such as the spread of wireless connectivity, the rise of the so-called ‘gig economy’ and the development of a nomadic culture entangling economic, social, cultural and technological practices enabling and constituting nomadicity.

We seek contributions that will deepen the current understanding of “nomadic culture”, as well as highlight opportunities and challenges for design. Contributors may wish to address a range of issues, including, but not restricted to:

* The transition from micro to macro aspects of nomadicity and from place-making practices to trajectories of nomadic lives;
* The transition from a work-centred to a practice-centred research entailing the work and non-work dimensions of people’s lives, and the negotiation and reconfiguration of work-life boundaries;
* Accounts of nomadic practices as emerging from novel spatial and organisational contexts;
* The range of organisational aspects, motivational factors, personal values and expectations underling the flexibility stemming from this way of working;
* The adoption of methodologies and frameworks to investigate trajectories of nomadic lives in changing organisational, technological and personal circumstances.
* The role of the constellations of technologies and digital platforms in enabling nomadic cultures, but also in creating a potential range of problems/issues to be dealt with;
* An examination of how we might identify those forces, contexts and dynamics that hinder, resist or work against the momentum of ‘nomadic culture’
* The technological, cultural, political and economic rationalities that underpin and legitimise contemporary enactments of nomadic work and the reproduction of nomadic culture;
* Methodological innovations in the study of nomadic culture;
* Analysis of the relationship between greater merging of human and machine and formations of nomadic culture;
* The role of technology as discourse in socially, culturally and ideologically shaping nomadic culture and nomadic worker subjectivity;
* Analysis of how a nomadic culture that emphasises constant technological innovation constitutes the relationships between capitalist goals of competition and profit and individual life aims;
* Explorations of what present and future “Nomadic Culture(s)” might look like, and of the challenges and issues we will be addressing by 2027.

Interdisciplinary participation from designers, developers, sociologists, psychologists, ethnographers, etc. is appreciated. In this way, the workshop will provide an important opportunity for researchers from both academia and industry to share ideas and possibly coordinate their efforts.

Submission format
Participants interested in contributing with a position paper have to send in a submission (max. 4 pages) containing a brief overview over the key ideas of the presentation and some information on their occupational background. Submissions must adhere to the IRSI series Format

Submission process
Papers must be submitted directly to the workshop organisers through the e-mail: nomadic-culture-ws@googlegroups.com

Review process
Contributions will be reviewed by the workshop organisers and selected on the basis of their quality, compliance with the workshop theme, and the extent (and diversity) of their backgrounds in terms of fieldwork, design, and technology.

Position papers accepted and presented in the workshop will be published in the workshop proceedings, which will be edited by the workshop organisers. The proceedings will include the final versions of all accepted contributions, adjusted to satisfy reviewers’ recommendations. It will be published as an issue of the International Reports of Social-Informatics (IIRSI) series from the International Institute of Socio-Informatics (IISI) in Bonn, Germany.

Chiara Rossitto, Stockholm University
Aparecido Fabiano Pinatti De Carvalho, University of Siegen
Luigina Ciolfi, Sheffield Hallam University
Airi Lampinen, Stockholm University
Breda Gray, University of Limerick

E-Mail: nomadic-culture-ws@googlegroups.com

More information can be found at https://nomadicculturews.wordpress.com/

‘Digitalization’ at Sociology Days: does ‘it’ exist and should we study ‘it’?


As part of the Finnish Sociology Days 2017, Rajapinta members Tuukka and Veikko organized a workshop on ‘Digitalization of Societies and Methods’. We wanted to discuss both ‘digitalization’ in terms of societal change and the ‘digitalization of methods’, that is, new digital and computational methodologies and (‘big’) datasets and their possibilities. We wanted to recognize that these are two different viewpoints largely driven by the same societal developments (‘digitalization’).

We believe that all social research must include the digital, but at the same time we must study the specificities of digital life: in what ways does the digital affect the social? How does the digitalization of everyday life, consumption and work affect our ways of life? On the other hand, Big Data and Computational Social Science are shaping social research, but are largely discussed by non-sociologists. With great data and method opportunities come some problems as well: how to get data scientists and social scientists to discuss with and understand each other, or should we rather teach digital methods to sociologists and sociological thinking to data scientists?

Our participants provided some preliminary answers to these questions. Many papers touched on the topic of whether ‘digitalization’ or ‘the digital’ is something that should be studied as is; ie. is ‘the digital’ actually something new or is it just another medium through which the same social structures, patterns and behaviour take place that used to, before ‘digitalization’, so to speak. To some extent, both are true, but in different cases and situations.

Screenshot 2017-03-28 17.01.28

In Veikko Eranti‘s presentation on citizen participation projects online and offline, largely the same things are happening in both media. Getting citizens to participate more has been a primary objective for many Western polities recently, and efforts have included both offline forms of participation (such as participatory budgeting) and online initiatives (such as online citizens’ initiative portals). But both have their caveats: if the initiative is designed to bolster tokenistic representation on everyday matters without true potential for change in any structures, what we get is citizens complaining on mundane issues rather than any meaningful participation(s).

Screenshot 2017-03-28 17.03.58But Mikael Brunila‘s presentation on the online spreading of the Soldiers of Odin extreme right brand (of which there is a great blog post here!) shows that the digital and the physical not always go hand in hand: something digital might not reflect something physical, in terms of political action. Still, online activism is not just ‘clicktivism’: spread of radicalist ideas does have real consequences whether or not they are accompanied by ‘boots on the ground’.

And Zhen Im‘s paper shows that digitalization has some very concrete structural societal effects in the shape of creating widespread economic and cultural precarity which partly explains the surge of the Western populist radical right (a thesis of ‘digitalization losers’ complementing that of ‘globalization losers’).

FTPTySC_Moreover, Salla-Maaria Laaksonen‘s work provides insight into how digital tools offer new methods of mobilization for anti-racist social movements as well, which may use social media to spread a ‘carnevalization’ of a physical event (an anti-immigrant street patrol confronted by humoristic ‘clown patrols’, the ‘Loldiers of Odin’). These tools for social movement mobilization are so concrete that state actors sometimes feel they have to intervene, as Markku Lonkila‘s presentation stated in the case of Russian political opposition and direct state repression that was directed against it. And they are used by a multiplicity of political actors: the logic of hybrid media also allows anti-immigration activists to question ‘official’ truth narratives and produce ‘counterknowledge’, ‘alternative facts’ and ‘post-truth politics’, as analysed by Tuukka Ylä-Anttila, by combining topic modeling with interpretive frame analysis.

Screenshot 2017-03-28 17.10.24

Also in regards to corporate use of individuals’ data, not just political actors, citizens are reacting to perceived misuse of their data and claiming ownership of that data, as Tuukka Lehtiniemi‘s paper assessed. And while studying these partly old, partly new phenomena, there are also new ethical challenges we have to take into account, like Aleksi Hupli argued.

All in all, we hope that both taking into account the digitalization of society and usage of digital methods will become more and more self-evident in sociology rather than a curiosity. While they are distinct phenomena, they are driven by same societal changes, which should be understood in all social research; rather than a separate ‘sub-field’ of digital or computational sociology.