Hate speech detection with machine learning — a guest post from Futurice

This blog post is a cross-posting from Futurice and written by Teemu Kinnunen (edits, comments and suggestions given by project participants Matti and Salla from Rajapinta)

* *

(Foreword by Teemu Turunen, Corporate Hippie of Futurice)

The fast paced and fragmented online discussion is changing the world and not always to the better. Media is struggling with moderation demands and major news sites are closing down commenting on their articles, because they are being used to drive an unrelated political agenda, or just for trolling. Moderation practice cannot rely on humans anymore, because a single person can easily generate copious amounts of content, and moderation needs to be done with care. It’s simply much more time consuming than cut and pasting your hate or ads all across the internet. Anonymity adds to the problem, as it seems to bring out the worst in people.

Early this year the nonprofit Open Knowledge Finland approached [Futurice] with their request to get pro bono data science help in prototyping and testing a machine learning hate speech detection system during our municipal elections here in Finland.

The solution would monitor public communications of the candidates in social media and attempt to flag those that contain hate speech, as it is defined by the European Commission and Ethical Journalism Network.

The Non-Discrimination Ombudsman (government official appointed by our government to oversee such matters) would review the results. There are also university research groups involved. This would be an experiment, not something that would remain in use.

After some discussion and head scratching and staring into the night we [at Futurice] agreed to take the pro bono project.

A tedious and time consuming repetitive task is a good candidate for machine learning, even if the task is very challenging. Moderation by algorithms is already done, just not transparently. An example? Perspective API by Jigsaw (formerly Google Ideas) uses machine learning models to score the perceived impact a comment might have on a conversation. The corporations that run the platforms we broadcast our lives on are not very forthcoming in opening up these AI models. The intelligence agencies of course even less so.

So we feel there’s a need for more open science. This technology will reshape our communication and our world. We all need to better understand its capabilities and limitations.

We understand that automatic online discussion monitoring is a very sensitive topic, but we trust the involved parties – specifically the non-discrimination ombudsman of Finland – to use the technology ethically and in line with the Finnish law.

In this article [Futurice’s] Data Scientist Teemu Kinnunen shares what we have done.


The hate speech detection problem is very challenging. There are virtually unlimited ways how people can express thoughts including also hate speech. Therefore, it is impossible to write rules by hand or a list of hate words, and thus, we crafted a method using machine learning algorithms.

The main goal in the project was to develop a tool that can process messages in social media and highlight the most likely messages containing hate speech for manual inspection. Therefore, we needed to design a process to find potential hate speech messages and to train the hate speech detector during the experiment period. The process we used in the project is described in Fig. 1.

Figure 1: Process diagram for hate speech detection.

At first, a manually labeled training set was collected by a University researcher. A subset from a dataset consists of public Facebook discussions from Finnish groups, collected for a University research project HYBRA, as well as another dataset containing messages about populist politicians and minorities from the Suomi24 discussion board. The training set was coded by several coders to confirm agreement of the data (kappa > .7). The training set was used to select a feature extraction and machine learning method and to train a model for hate speech detection. Then we deployed a trained model that was trained with manually labeled training samples. Next, we downloaded social media messages from a previous day and predicted their hate speech scores. We sorted the list of messages based on predicted hate speech scores and send messages and their scores to a manual inspection. After the manual inspection, we got new training samples which we used to retrain the hate speech detection model.

Feature extraction


There are many methods to extract features from text. We started with standard Natural Language Processing methods such as stemming and Bag-of-Words (BoW). At first, we stemmed words in the messages using Snowball method in the Natural Language Toolkit library (NLTK). Next, we generated a vocabulary for bag-of-words using the messages in manually labelled training samples. Finally, to extract features for each message, we computed a distribution of different words in the message i.e. how many times each word in the vocabulary exists in the message.

Some of the words appear nearly in each message, and therefore, provide less distinctive information. Therefore, we gave different weights for each word based on how often they appear in different messages using the Term Frequency – Inverse Document Frequency weighting (TF-IDF). TF-IDF gives higher importance for the words which are only in few documents (or messages in our case).

Word embeddings

One of the problems in bag-of-features is that it does not have any knowledge about semantics of words. The similarity between two messages is calculated based on how many matching words there are in the messages (and their weights from TF-IDF). Therefore, we tried word embeddings which encodes words that are semantically similar with similar vectors. For example, a distance from an encoding of ‘cat’ to an encoding of ‘dog’ is smaller than a distance from an encoding of ‘cat’ to an encoding of ‘ice-cream ’. There is an excellent tutorial to word embeddings on Tensorflow site for those who wants to learn more.

In practice, we used the fastText library with pre-trained models. With fastText, one can convert words into vector space where semantically similar words tend to appear close by each other. However, we need to have a single vector for each message instead of having varying number of vectors depending on the number of words in a message. Therefore, we used a very simple, yet effective, method: we computed a mean of word encodings.

Machine learning

The task in this project was to detect hate speech, which is a binary classification task. I.e the goal was to classify each sample into a no-hate-speech or a hate-speech class. In addition to the binary classification, we gave a probability score for each message, which we used to sort messages based on how likely they were hate speech.

There are many machine learning algorithms for binary classification task. It is difficult to know which of the methods would perform the best. Therefore, we tested a few of the most popular ones and choose the one that performed the best. We chose to test Naive Bayes, because it has been performing well in spam classification tasks and hate speech detection is similar to that. In addition we chose to test Support Vector Machine (SVM) and Random Forest (RF), because they tend to perform very well in the most challenging tasks.

Experiments and results

There are many methods for feature extraction and machine learning that can be used to detect hate speech. It is not evident which of the methods would work the best. Therefore, we carried out an experiment where we tested different combinations of feature extraction and machine learning methods and evaluated their performance.

To carry out an experiment, we needed to have a set of known sample messages containing hate speech and samples that do not contain hate speech. Aalto researcher Matti Nelimarkka, Juho Pääkkönen, HU researcher Salla-Maaria Laaksonen and Teemu Ropponen (OKFI) labeled manually 1500 samples which were used for training and evaluating models.

1500 known samples is not much for such as challenging problem. Therefore, we used k-Fold cross-validation with 10 splits (k=10). In this case, we can use 90% sample for training and 10% for testing the model. We tested Bag-of-Words (BOW) and FastText (FT) (Word embeddings) feature extraction methods and Gaussian Naive Bayes (GNB), Random Forest (RF) and Support Vector Machines (SVM) machine learning methods. Results of the experiment are shown in Fig. 2.

Figure 2: ROC curves for each feature extraction – machine learning method combination. True Positive Rate (TPR) and False Positive Rate (FRP). The FPR axis describes the ratio of mistake (lower is better) and the TPR axis describe the overall success (higher is better). The challenge is to find a balance between TPR and FPR so that TPR is high but FPR is low.

Based on the results presented in Fig. FIGEXP, we chose to use BOW + SVM to detect hate speech. It clearly outperformed other methods and provided the best TPR which was important for us, because we wanted to sort the messages based on how likely they were hate speech.

Model deployment

Based on the experiment, we chose a feature extraction and machine learning method to train a model for hate speech detection. In practice, we used the score of the binary classifier to sort the messages for manual inspection and annotation.

We ran the detector once a day. At first, we downloaded social media messages from a previous day, then predicted hate speech (scored each message) and stored the result in a CSV file. Next, we converted this CSV file to Excel for manual inspection. After manual inspection, we got new training samples which were used to retrain the hate speech detection model.

During the field experiment, we found out that the model was able to sort the messages based on the likelihood of containing hate speech. However, the model was originally trained with more biased set of samples, and therefore, it gave rather high scores also for messages not containing hate speech. Therefore, manual inspection was required to make the final decision for the most prominent messages. Further measures concerning these messages were done by the Non-Discrimination Ombudsman, who in the end contacted certain parties regarding the findings.


In a few weeks, we built a tool for hate speech detection to assist officials to harvest social media for hate speech. The model was trained with rather few samples for such a difficult problem. Therefore, the performance of the model was not perfect, but it was able to find a few most likely messages containing hate speech among hundreds of messages published each day.

In this work, training -> predicting -> manual inspection -> retraining – iteration loop was necessary, because in the beginning, we had quite limited set of training samples and the style of the hate speech can change rapidly e.g. when something surprising and big happens (A terrorist attack in Sweden happened during the pilot). The speed of the iteration loop defines how efficiently the detector works.

Trump ja sosiaalisen median analytiikka

Screenshot from Tagboard.

Yhdysvaltain presidentinvaalit ja sosiaalisen median osuus niissä ovat herättäneet viime päivinä paljon keskustelua. Debatti kiteytyy kahden teeman ympärille. Ensinnäkin, mitä sosiaalisen median kuplautumisesta kertoo se, että Donald Trumpin voitto tuli monelle yllätyksenä. Toisekseen, olisiko Trumpin voiton voinut ennustaa sosiaalista mediaa seuraamalla?

Avaan tässä postauksessa jälkimmäistä kysymystä eli sosiaalisen median roolia ja analytiikkaa vaalivoiton ennustuksessa. YLE julkaisi tästä vastikään jutun, jossa oli hyödynnetty Ezyinsightsin analytiikkaa, ja johon itsekin kommentoin. Puhuin samasta tematiikasta myös viime maaliskuussa valtiotieteellisessä tiedekunnassa järjestetyssä USA:n vaalit -luentosarjassa sekä Helsingin Sanomien toimittajan kanssa myöhemmin toukokuussa.

Jo maaliskuussa oli selvää, että millä tahansa sosiaalisen median mittarilla Trump on vaalien voittaja – vaikka silloin mukana kisassa olivat vielä kaikki esivaaliehdokkaat. Kuten Ezyinsightsin analytiikka osoittaa, sama näkyi monella mittarilla myös vaalisyksynä.

Sosiaalisen median analytiikan ongelma on kuitenkin se, että se antaa helposti kivoja numeroita, joiden päälle voi perustaa väittämiä. Tämä pätee erityisesti palveluiden kuten Facebookin itsensä antamiin tietoihin.

Facebook mittaa viesteihin “sitoutumista” (engagement, termi ei oikein käänny kunnolla suomeksi), joka on käytännössä kaikkien sen viestin aiheuttamien reaktioiden (kommentit, tykkäykset, jaot) yhteissumma. Twitter puolestaan kertoo impressions-luvun, joka mittaa twiitin potentiaalisesti nähneiden silmäparien määrää.

Molemmat ovat ongelmallisia mittareina. Twitterin impressioluku kertoo suurimman mahdollisen yleisön määrän twiitin saamilla reaktioilla, mutta ei mitään todellisista lukijoista. Facebookin “sitoutuminen” puolestaan on jonkinlainen kiinnostuksen mittari, mutta lopulta vain numero, jolla ei ole mitään laadullista sisältöä.

Puhtaan määrällisistä mittareista on kuitenkaan vaikea sanoa mitään yleisöjen suhteen tai kiinnostuksen laadusta. Todennäköisesti monet ovat seuranneet Trumpia myös mielenkiinnosta tai kauhistuksesta – hän on ollut melkoinen mediailmiö viimeisen ainakin vuoden ajan sekä perinteisessä että sosiaalisessa mediassa. Moni on varmasti seurannut ja jakanut Trumpin tekemisiä myös kauhistellakseen hänen lausuntojaan.

Emme siis voi lukujen perusteella sanoa mitään niistä tulkinnoista tai syistä, miksi ihmiset tiettyä videota tai päivitystä katsovat ja klikkaavat.

Juuri tästä syystä menestystä sosiaalisessa mediassa on aika vaikea määritellä. Seuraajia ja tykkääjiä on, mutta heidän motiiveistaan emme tiedä mitään. Toimijan näkyvyyteen jokainen kriittinenkin klikki kuitenkin väistämättä vaikuttaa, sillä sosiaalisen median julkisuus suosii suositumpaa ja nostaa reaktioita herättäneitä viestejä ja uutisia ihmisten uutisvirtoihin.

Ongelmallista on myös se, että mikään sosiaalisen median alusta ei ole edustava otos väestöstä. Varsinkaan jollakin alustalla aktiivisesti toimivien otos ei ole edustava, vaan vinoutunut vähintäänkin poliittisen kiinnostuksen tai teknologisten taitojen perusteella. Esimerkiksi Yhdysvalloissa Facebookia käyttää 68% aikuisväestöstä, mutta valtaosa heistä on todennäköisesti epäaktiivisia.

Tutkimuksissa sosiaalisen median metriikoiden ja äänestystulosten välistä yhteyttä ei olla saatu luotettavasti osoitettua. Tulevaisuudessa tilanne saattaa parantua erilaisten tekstinlouhinnan menetelmien (esim. sentimenttianalyysi) yleistyessä ja arkipäiväistyessä.

Sitä odotellessa vaikuttaa tällä kertaa siltä, että sosiaalinen media oli hiukan enemmän oikeassa kuin gallupit, mutta yllämainituista syistä rohkenen väittää, että se kertoo enemmän sattumasta ja Trumpista hybridinä mediailmiönä. Kuten Hesarille totesin: “Näissä vaaleissa Trump on täydellinen klikkisampo ja tämän ajan mediamagneetti. Hän suoltaa suoraan twiiteiksi ja klikkiotsikoiksi sopivia iskulauseita, ja sopii siksi mediakoneiston tarpeisiin erittäin hyvin.”

Yhteensä opimme sen, että poliittinen todellisuus ja ihmisten käyttäytyminen on monimutkaisempaa kuin mitä sosiaalisen median analytiikka tai gallup-kyselyt osaavat selvittää. Onhan se myös jollakin tapaa lohdullista ainakin näin yhteiskuntatieteilijälle.

– –

ps. Laadullinen tutkija minussa uskoo, että Trumpin sosiaalisen median menestystä selittää yleisen mediailmiön lisäksi kaksi asiaa: taitavat retoriset keinot ja aitous (authenticity) tai ainakin aidolta vaikuttava, kansaan vetoava viestintä. Aitouden vetovoimaa on tutkittu goffmanlaisittain Internetin sosiaalipsykologiassa, myös politiikan ja kampanjoinnin kontekstissa.

pps. Trumpista ja sosiaalisesta mediasta huomenna aamulla juttua ainakin Huomenta Suomessa ja YLEn Ykkösaamussa, äänessä Digivaalit-projektin Mari Marttila!

Verkon medialogiikan äärellä: kiertoa ja karnevaalia

Kuva: Kevin Dooley @Flickr

Tämän päivän poliitikko joutuu asiakysymysten lisäksi opettelemaan myös taitoja mediassa esiintymiseen. Lehdistö seuraa vaaleja ja politiikan tapahtumia herkeämättä. Television vaaliohjelmat ovat 1960-luvulta alkaen olleet merkittävä kenttä vaalikeskustelulle. Toimittajat päivystävät eduskuntatalon kahvilassa ja Säätytalon oven takana neuvottelujen aikana. Maamme suurin keskustelupalsta Suomi24 on perustanut oman vaalikanavansa. Poliitikkojen twiittejä seuraavat niin media kuin tavalliset kansalaisetkin. Julkisuuteen saattavat nousta yhtä lailla lautakasat, tekstiviestit kuin poliittiset lausunnotkin.

Viestinnän tutkijat kutsuvat tätä ilmiötä politiikan – tai minkä tahansa muun toiminnan – medioitumiseksi. Medioitumisteorian mukaan erilaiset organisaatiot ja muut toimijat joutuvat muokkaamaan omaa toimintaansa median logiikan mukaiseksi. Käytännössä tämä tarkoittaa sitä, että asiantuntijoiden on oltava jatkuvasti valmiina kertomaan omista näkemyksistään ja vastaamaan erilaisiin väitteisiin median kentällä. Tiukimman tulkinnan mukaan he joutuvat perustelemaan koko olemassaolonsa ja legitimiteettinsä mediassa. Voidaan jopa väittää, että mediasta on tullut yksi politiikan keskeinen instituutio, joka näyttelee erityisen tärkeää roolia epäkohtien paljastamisessa ja skandaalien rakentamisessa – mutta myös äänestäjien tavoittamisessa.

Myös verkkojulkisuus ja sosiaalinen media ovat osa tätä toiminnan kenttää. Verkon merkitykseen on kiinnitetty paljon huomiota viestinnän ja politiikan tutkimuksessa. Keskustelussa näkyvät rinnakkain sekä vahva toivo demokratian lisääntymisestä vuorovaikutteisen viestinnän avulla että skeptisemmät näkemykset uusien viestintävälineiden roolista. Tilastojen valossa merkittävyys vaikuttaa vielä pieneltä. Esimerkiksi vuoden 2011 eduskuntavaaleissa sosiaalisen median kautta vaaleja kertoi seuranneensa yhdeksän prosenttia väestöstä. Siitäkin huolimatta poliittiset toimijat näyttävät omaksuneen verkkoareenat yhdeksi vaalikamppailun osa-alueeksi – tärkeimpänä kannustimena kenties toimittajien aktiivinen sosiaalisen median käyttö.

Medioitumisen näkökulmasta on mielenkiintoista kysyä, mikä on se medialogiikka, joka verkon julkisuudessa ja sosiaalisessa mediassa vallitsee ja johon poliittiset toimijat joutuvat tällä julkisuuden kentällä mukautumaan. Minkälaiset median muodot ja toimintatavat ovat erityisen tyypillisiä sosiaaliselle verkkojulkisuudelle? Vastaan kysymykseen yhdistämällä mediatutkija Nick Couldryn ajatuksia digitaalisesta medioitumisesta sekä verkkotutkija danah boydin näkemyksiä verkkoyleisöistä.

Huomiotalous ja kuvien voima. Verkossa taistellaan konkreettisesti sisältövirtojen keskellä elävien yleisöjen huomiosta. Siksi monet verkkotekstin lajityypit ovat kehittyneet melko lyhyiksi, keskeisimpänä esimerkkinä mikroblogipalvelu Twitter. 140 merkin mittaiseen viestiin jaksaa helposti keskittyä, mutta sanoman tiivistäminen näin lyhyeen tilaan vaatii harjoittelua. Samalla verkkojulkisuuden sisällöt ovat hyvin monimuotoisia ja multimodaalisia: niissä yhdistyvät sulavasti teksti, kuva ja ääni. Näistä erityisesti kuvallisen ja videomuotoisen viestinnän rooli on viime vuosina ollut kasvussa samalla, kun tekstimuotoinen viestintä typistyy yhä lyhyemmäksi. Kuvat ovat toistaiseksi olleet tehokas keino nousta esiin sisältöjen virrasta. Onkin mielenkiintoista nähdä, kuinka moni poliitikko päätyy rakentamaan vaalikampanjaa varsinkin nuorison keskuudessa suosittuun kuvanjakopalvelu Instagramiin.

Sisältöjen kierto. Tutkijat korostavat sitä, kuinka viestit elävät omaa elämäänsä verkkoareenoilla. Danah boyd käyttää näkymättömien yleisöjen käsitettä kuvaamaan sitä, kuinka sisällön julkaisemisen hetkellä verkkopalveluissa yleisö ei ole konkreettisesti näkyvillä, ja siksi sen laajuutta on vaikea käsittää. Samasta syystä sisällöt voivat päätyä sellaisille areenoille, joille niitä ei ollut alun perin tarkoitettu. Verkkosisältö onkin pysyvää ja toistettavissa – julkaistut sisällöt on helppo kopioida, ja sen vuoksi ne siirtyvät helposti alustalta toiselle ja säilyvät saatavilla, vaikka alkuperäinen versio poistettaisiinkin. Erilaisten hakukoneiden avulla verkkosisällöt ovat myös etsittävissä vuosia tai vuosikymmeniä julkaisuajankohdan jälkeenkin.

Luova karnevaali. Politiikan näkökulmasta tämä tarkoittaa tietysti sitä, että pienetkin virheet ja tulkinnanvaraiset lausunnot tai päivitykset voivat jäädä kummittelemaan verkossa. Näihin kummituksiin liittyy usein myös verkon musta huumori ja karnevalistinen kulttuuri, jossa viestin merkityksiä muunnellaan välineelle tyypillisten kulttuuristen konventioiden keinoin. Tunnetuin esimerkki tästä ovat erilaiset meemit, joista poliitikotkin ovat saaneet osansa. Esimerkiksi yhtenä vaalikevään tuotoksena liikkuu kuvamanipulaatioita, joissa keskustan Juha Sipilä on siirretty promokuvasta makoilemaan mitä erilaisimpiin ympäristöihin. Meemin ympärillä käyty keskustelu on samalla hyvä esimerkki siitä, että poliittista puhetta saattaa verkossa esiintyä yllättävilläkin areenoilla.

Medioitumisen näkökulmasta tilanne verkossa on oikeastaan kahtalainen. Toisaalta periaatteessa kenellä tahansa on mahdollisuus ryhtyä viestin välittäjäksi ja lähestyä julkisuudessa poliitikkoja tiukoilla kysymyksillä tai haastaa heidän legitimiteettiään karnevalistisilla esityksillä. Toisaalta myös poliittisilla toimijoilla itsellään, niin ehdokkailla kuin puolueillakin, on mahdollisuus ylläpitää eräänlaista omaa mediaa: hyödyntää verkon eri ilmaisumuotoja ja hankkia julkisuutta perinteisen median ohitse. Tavoitettavuuden kannalta oma media on kuitenkin rajallinen, sillä sinne eksyvät todennäköisesti vain jo valmiiksi kiinnostuneet. Miten verkossa voisi tavoittaa siirtyvät äänestäjät tai poliittisesti kodittomat? Voisiko verkossa herättää myös politiikasta vieraantuneet keskustelemaan poliittisista teemoista? Tästä sekä erilaiset meemikeskustelut, Tahdon-kampanjat että edelliset presidentinvaalit Facebook-pöhinöineen ovat hämmentäviä mutta toiveikkaita esimerkkejä.

Kirjoitus on julkaistu alunperin Viite – Tieteen ja teknologian vihreät ry:n vaalilehdessä keväällä 2015.

Vaalit tulloo!

Verkosta kiinnostuneelle yhteiskuntatietelijälle vaalit ovat mahdollisuus tutkia niin kansalaisten, ehdokkaiden kuin erilaisten etujärjestöjen verkkomedian käyttöä. Helsingin seudulla kiinnostuneet tutkijat kerääntyivät yhteen kuuntelemaan niin teoreettisia kuin menetelmällisiä johdantoja ja pohtivat omia tutkimusaiheitaan näiden valossa.

Perinteinen kysymys vaaleihin liittyvässä tutkimuksessa on ollut läsnäolo ja näkyvyys sosiaalisessa mediassa. Erityisesti perinteinen poliitikkojen läsnäolo mediassa on ollut laajasti tutkimuksen kohteena, painottuen arvioimaan kuinka perinteiset valtaan liittyvät attribuutit selittävät myös esiintymistä sosiaalisessa mediassa.

  • Susanne Nylundin suunnitelma on tutkia poliitikkojen profiilikuvia sosiaalisen median palveluita ja tätä kautta arvioida millaisia menetelmiä he käyttävät rakentamaa kuvaansa julkisuudessa.
  • Netta Karttunen on kiinnostunut etujärjestöjen toimista verkkomediassa: kuinka lobbausta järjestetään ja ketkä ovat lobbauksen kohteet? Erityisesti mielenkiintoista on, kuinka verkkolobbaus mahdollisesti eroaa perinteistä vaikuttamisesta.
  • Salla-Maaria Laaksonen ja Matti Nelimarkka pohtivat, ketkä vaikuttavat agendan muodostumiseen: mikä on digitaalisen median ja sen eri toimijoiden vaikutus siihen, mistä vaaleissa puhutaan?
  • Mari Marttila on kiinnostunut selittämään, ketkä ehdokkaista ovat läsnä sosiaalisessa mediassa: mitkä sosiaaliset ja ideologiset näkemykset selittävät poliittista läsnäoloa ja kuinka tämä liittyy edustamiseen.

Toisaalta läsnäolon lisäksi sosiaalista mediaa perinteisesti kiitetään mahdollisuudesta vuorovaikukseen – tutkimuksen mukaan tosin usein syyttä suotta. Idealistit ovat argumentoineet, että sosiaalinen media mahdollistaisi suoremman yhteyhden ehdokkaiden ja kansalaisten välillä.

  • Mari Tuokko tarkastelee ehdokkaiden ja äänestäjien vuorovaikutusta sosiaalisessa mediassa: tarkoituksena ja ymmärtää sitä, millaisia viestintäfunktioita ehdokkaiden ja potentiaalisten äänestäjien vuorovaikutus  sosiaalisessa mediassa toteuttaa vaalikampanjoinnin aikana.

Vuorovaikutukseen liittyy olennaisesti myös kansalaisten välinen vuorovaiktuus – toistaiseksi tutkimuksessa vähemmälle jäänyt teema.

  • Iiris Lagus haluaa ymmärtää, miksi jotkut kansalaiset osallistuvat enemmän ja jotkut taas vähemmän poliiittiseen verkkokeskusteluun.
  • Arto Kekkonen tutkii poliittisia meemejä ja niiden jakamista: ketkä luovat meemejä, miten ne leviävät yhteisössä ja kuinka niiden merkitys muuttuu jakamisen yhteydessä.

Kansanedustajat ja sosiaalinen media: regressioanalyysiä

Kuten Salla jo lupasikin, lisää analyysiä kansanedustajien sosiaalisen median käytöstä on luvassa. Tilastollisten mentelmien pystymme selittämään median käyttötottumuksia laajemmin ja erittelemään tekijöiden välisiä vaikutussuhteita enemmän. Selitämme, kuinka kansanedustajat käyttävät sosiaalista mediaa ja pohdimme

  • demografisia taustakijöitä
  • rahoitusta ja muita resursseja
  • julkisuutta ja valta-asemaa

Voimme esimerkiksi yrittää selittää sosiaalisen median käyttötottumuksia eri medioiden välillä:

Taulukko 1

Lisäksi käyttämämme aineisto mahdollistaa syvemmän tarkastelun: pelkän olemassa olon lisäksi voimme selittää seuraajien määrää tai blogin käyttöä muuttujien avulla.

Taulukko 2
Taulukko 3

Taulukoista ja niiden ulkomuodosta voi päätellä, että kyseessä on regressioanalyysin sovellutus. Idea esimerkiksi taulukossa 1 on selittää sosiaalisessa mediassa olemista sukupuolella, iällä ja muilla muuttujilla. Kullekkin muuttujalle saadaan sen vaikutusta kuvaava kerroin sekä p-arvo, joka kertoo, onko havaittu vaikutus satunnaista vai ei. P-arvoa kuvataan tässsäkin taulukossa tähtinä lukujen perässä, eli mitä enemmän tähtiä sitä vakuuttuneempia voimme olla tuloksesta. Mutta, mitä voimme sanoa tämän ison taulukkosekamelskan seasta?

Ensiksi havaitaan, että sosiaalinen media on nuorempien ihmisten juttu. Sekä siis varsinaisessa olossa sosiaalisessa mediassa kuin myös sosiaalisen median käytön suhteen. Erityisen vahvasti sosiaalisen verkostoitumisen palvelut näyttäisivät olevan nuorten juttu, blogien kohdalla trendi on samanlainen, mutta tilastollisesti merkityksetön: siitä ei voida olla kovinkaan varmoja. Sukupuolen osalta mitään tilastollisesti merkittävää ei voida sanoa, mutta näyttäisi siltä, että naiset ovat enemmän sekä paikalla että läsnä.

Toiseksi, käytössä olevat resurssit vaikuttavat parantavan oloa sosiaalisessa mediassa, mutta se ei välttämättä tuo läsnäoloa. Sekä Facebookin että Twitterin tapauksessa suurempi vaalibudjetti lisäsi tilastollisesti merkittävästi todennäköisyyttä sosiaalisessa mediassa olemiseen, mutta seuraajamäärän suhteen tulokset eivät ole tilastollisesti merkittäviä. Kiinnostavaa kyllä, blogit eivät ole tässä mielessä samanlainen media.

Koska suomalainen poliittinen järjestelmä korostaa puolueiden asemaa, niin on mielekästä myös pyrkiä arvioimaan puolueen aseman ja resurssien vaikutusta. Tässä käytetään taustalla puolueiden paikkamääriä edellisissä vaaleissa, puoluetuki kun jaetaan paikkojen suhteen. Kuitenkin, institutionaalinen tuki oli joko merkityksetöntä tai jopa haitallista sekä sosiaalisessa mediassa olemiselle.

Kolmanneksi pyritään vähän enemmän arvioimaan aiemman vallan merkitystä sosiaalisessa mediassa. Puolueen ja yksittäisen kansanedustajan valtaa pyritään estimoimaan hallitusasemalla, puolueen paikkamäärällä, senioriteetilla sekä aikaisemmalla asemalla. Kuitenkaan, näiden selitysvoima ei ole erityisen suuri eikä tilastollisesti merkittäväkään.

Perinteisesti verkkoviestinnän on koettu ylläpitävän perinteisiä valtarakenteita, tätä kutsutaan normalisaatiohypoteesiksi. Tutkimuksemme varsin yllättäen ehdottaisi, että ainakaan kaikilta osin tämä tulos ei ole suoraan havaittavissa. Tietenkin, analyysimme kohde on ollut vain valitut kansanedustajat, mikä sinäänsä jo tukee olemassa olevia valtarakenteita — tämä tulos vaatii vielä enemmän pureksintaa siis.

Seuraavaksi edessä on kunnallisvaalit…

Kansanedustajat ja sosiaalinen media vaaleissa 2011

Tutkimme vuoden 2011 eduskuntavaalien jälkeen, miten valitut edustajat käyttivät sosiaalista mediaa vaalien aikana sekä viikon vaalien jälkeen. Tutkimusraportti (The use of social media in the Finnish Parliament Elections 2011, pdf), jonka tuloksia esittelimme vastikään myös Rajapinta-ryhmässä Viestinnän tutkimuksen päivillä, on nyt ladattavissa verkosta CRC:n sivuilta.

Tutkimuksessa tarkastellut palvelut olivat blogit, Facebook, Twitter, YouTube ja Flickr. Raportissa siis mukana kaikki valitut 200 edustajaa sekä lisäksi puoluetason tietoja.

Yleisesti havaintojen perusteella voidaan todeta, etteivät vuoden 2011 eduskuntavaalit vielä olleet ne sosiaalisen median vaalit, joiksi niitä uumoiltiin. Lisäksi monet edustajat hylkäsivät kanavat kokonaan vaalien jälkeen: sosiaalista mediaa käytettiin enemmän lyhytaikaiseen kampanjatyöhön ja yksisuuntaiseen viestintään, kuin todelliseen keskusteluun äänestäjien kanssa.

Suosituin sosiaalisen median alusta oli blogi (177 edustajalla), mutta yli kolmannes blogeista ei sallinut kommentointia lainkaan. 81,5% edustajista ylläpiti profiilia Facebookissa, mutta julkista profiilia vain 55 prosenttia. 39% edustajista omisti Twitter-tilin. Visuaalisten alustojen eli YouTuben ja Flickrin käyttö oli kaikkiaan vielä hyvin vähäistä.

Tutkittaessa sosiaalisen median käyttö selittäviä tekijöitä edustajien ikä nousee esille tyypillisesti merkittävänä taustamuuttujana: nuoremmat edustajat käyttävät todennäköisemmin mm. Twitteriä ja Facebookia. Myös puolueella taustatekijänä näyttäisi olevan merkitystä, mutta sen tarkempaa mekanismia ei tässä raportissa ole arvioitu. Puolueorganisaation tasolla aktiivisina sosiaalisen median hyödyntäjinä erottuu ennen kaikkea Vihreä Liitto, mutta erityisesti Facebookissa myös suuren suosion kerännyt Perussuomalaiset.

Khaldarova, I.; Laaksonen, S-M. & Matikainen, J. (2012). The use of social media in the Finnish Parliament Elections 2011. Media and Communication Studies Research Reports 3/2012. Communication Research Centre CRC: Helsinki. (pdf)

p.s. Tutkimustyö samasta aineistosta jatkuu Rajapinta-pohjaisella työryhmällä Matti Nelimarkan kanssa, eli lisää analyysia luvassa jatkossa!