Ethän kiusaa Anna-Liisa Goritmia

Anna-Liisa on aina ollut nopea laskija. Hän haaveili ammatista ihmislaskijana. Päivät koostuisivat laskemisesta ja lopputuloksen perusteella tehdyistä helpoista päätöksistä. Esimerkiksi hän rakasti aina illalla laskea seuraavan aamun sateen todennäköisyyttä ja jos todennäköisyys oli yli 85%, ottaa aamulla mukaansa sateenvarjon.

Kuitenkin ensimmäisen loskakuuron jälkeen Anna-Liisa oppi, että sateenvarjo olisi hyvä ottaa myös jos sateen todennäköisyys olisi korkea ja lämpötila olisi vähän pakkasella, varsinkin jos on loppusyksy. Kesäisen raekuuron jälkeen Anna-Liisa oppi lisää: sateenvarjoa vaativia tilanteita voisi olla todella monia. Olisi hyvin vaikea muistaa listata nämä kaikki säännöt etukäteen eikä unohtaa jotain. Hän huomasi, että on oikeastaan vaikea tunnistaa näitä etukäteen, ihmisen mielikuvitus kun on rajoittunutta. Tämän takia Anna-Liisa oli hiukan masentunut: voisiko hänestä koskaan tulla ihmislaskijaa?

Mietittyään asiaa hiukan, Anna-Liisa huomasi, että koska hän on niin nopea laskija ei aina tarvitsisi luoda sääntöjä. Anna-Liisa tarkkaili kaikkia naapureitaan ja sitä, koska naapurit ottavat sateenvarjonsa mukaan. Samaan aikaan hän katsoi mitä edeltävän illan sääennusteessa olikaan tapahtunut ja muodosti näiden esimerkkien pohjalta itse säännöt sille, koska sateenvarjo kannattaisi ottaa mukaan. Eihän sateenvarjon mukaanotto aina onnistunut tällä tavalla. Kerrankin Anna-Liisa ei ottanut sateenvarjoa mukaan, huomasi että keskipäivälllä satoi kissoja sekä koiria – ja huomasi, että moni hänen naapurinsa oli ottanut sateenvarjon mukaan. Mutta Anna-Liisa oppi tästä taas yhdenlaisen tilanteen, jossa sateenvarjo kannattaisi pitää mukana.

Anna-Liisa huomasi, että moni muukin halusi tehdä päätöksiä samalla tavalla. He lähettivät Anna-Liisalle paljon esimerkkejä, joiden pohjalta Anna-Liisa pystyi itse laskemaan mitä sääntöjä oikeastaan olikaan. Sitten he soittivat Anna-Liisalle miltä tilanne näytti juuri nyt ja kysyivät mitä nyt kannattaisi tehdä. Tämä oli mukavaa ja lisäksi siitä maksettiin varsin hyvin.

Anna-Liisaa pyydettiin esimerkiksi arvioimaan sopivia vuokrien hintoja, arvioimaan ihmisen terveyttä sekä päättämään keille kannattaisi antaa sairasvakuutus tai keiden työhakemuksia tulisi tarkastella lisää. Vuokrien hinnoissa hänellä oli käytössä tietoja alueen kaikkien asuntojen vuokratasot. Kaikki toimi erinomaisesti: Anna-Liisa oppi sääntöjä näiden esimerkkien avulla.

Kuitenkin eräänä päivänä eräs Anna-Liisan asiakas tuli juttelemaan Anna-Liisan kanssa. Häntä mietitytti, että miksi kaikki yli 50-vuotiaiden työhakemukset on hylätty epäillen, että onko Anna-Liisalla ongelmia vanhempien ihmisten suhteen. Anna-Liisa vakuutti, että ei ole. Anna-Liisa oli kuullut monista yhdysvaltalaisista tutkimuksista, jotka kertovat kuinka esimerkiksi etnisen tausta vaikuttaa palkkaamiseen. ”Ehkäpä ongelma on esimerkeissä eikä minun laskelmissa?” Anna-Liisa pohdiskeli asiakkaansa kanssa.

Tarinan pohdiskelua ja avaamista

Tarina ehkä eniten kuvaa, ettei minusta koskaan olisi tullut erityisen hyvä kirjailija. Samaan aikaan se tuo esille minua ärsyttävää jännitettä yksinkertaistaa algoritmisia järjestelmiä ihmisten mielessä, mediassa sekä myös akateemisessa keskustelussa. Tämä blogipostaus on vastine toisaalta YLEn uutiselle tekoälystä ja syrjinnästä ja toisaalta nimettömälle TikTok-käyttäjälle.

Ylen uutisessa ansiokkaasti havaitaan, että ihmiset ovat mukana monessa osassa algoritmejä.

Dataa analysoiva tekoäly harrastaa nimittäin syrjintää.

– Data koostuu siitä, miten ihmiset ovat eläneet tähän asti, ja myös tekoäly on ihmisten kehittämä, Ollila sanoo.

Emme pääse eroon yhteiskuntamme ennakkoluuloista, vääristymistä tai syrjintämekanismeista ulkoistamalla päätöksemme koneelle

Mutta jo kahden kappaleen päässä ihmisen oma toimijuus on kokonaan unohtunut algoritmikritiikistä:

Siksi esimerkiksi Google-haun on todettu tarjoavan naisille pienempipalkkaisia työpaikkailmoituksia kuin miehille (siirryt toiseen palveluun) (The Guardian), ja työhakemuksia perkaava algoritmi voi aiemmista valinnoista oppineena rankata pois kaikki yli 50-vuotiaat. Samoin voi toimia vakuutusyhtiön tekoäly, vaikka emme niin haluaisi.

Ongelmahan ei varsinaisesti ole työhakemuksia perkaava algoritmi, vaan me ihmiset. Tämän ei pitäisi olla yllätys kenellekään, joka on hiukan tutustunut aihetta sivuavaan tutkimukseen. Työmarkkinoiden syrjintää on kenttäkokeellisilla asetelmilla saatu mitattua jo pitkään (esimerkiksi Bertrand & Mullainathan, 2004). Kun työmarkkinoilla on syrjintää, niin tietenkin työmarkkinoista kerätyssä aineistossa on näitä samoja ongelmia. Toistamme aikaisempia syrjiviä käytänteitä uusin keinoin.

TikTokissa tuntuu olevan myös trendaavana postaustyyppinä tehdä kaksi erilaista videota: toisessa hiukan enemmän paljasta pintaa ja toisessa taas vaatetusta. Tämä on yritys käyttäjiltä ymmärtää videoiden suosiota ja tehdä johtopäätöksiä siitä, suosiiko TikTok videoita, joissa on paljaampaa pintaa. Tässä testaamisessa kuitenkin unohtuu ihmisten oma rooli ja järjestelmän vuorovaikutteinen luonne. Jos katson ja tykkään toisesta videosta, sitä kannattaa näyttää enemmän myös muille: se on jo koukuttanut minut, joten se voi koukuttaa muitakin. Luultavasti tämän testauksen jäljiltä lopulta päädytään puhumaan vähemmän suosittelualgoritmeistä ja enemmän siitä, mitä me ihmiset oikeastaan teemme.

Kärjistetysti usein algoritmit ovat kuin autoja. Kun mediassa puhutaan auto-onnettomuudesta, käytetään usein fraaseja kuten auto ajaa ihmisen yli. Unohdetaan kokonaan, että harvoin ne autot ajavat itseään, vaan ratin takana on ihminen. (Ainakin vielä, suurista toiveistani huolimatta.) Samalla tavalla algoritmisten järjestelmien takana on lopulta ihmisiä.

Mitä sitten?

Mielestäni yksi iso ongelma liittyy tapaamme käyttää sanoja algoritmi ja tekoäly kun oikeasti tarkoitetaan koodin, aineistojen ja ihmisten muodostamaa algoritmistä järjestelmää. Isoin ongelma usein syntyy juuri järjestelmän luonteesta. Esimerkiksi Pääkkönen et al. (2020) kommentoivat, että kaikissa järjestelmissä on aina epävarmuutta ja sen hallinta luo valta-asetelmia. Tällöin kun ihmisten tekemää päätöksentekoa korvataan algoritmisella järjestelmällä, epävarmuus palloilee uudelle paikalle koodin, aineiston ja ihmisten sekamelskassa. Ja tämä luo uusia mahdollisuuksia vallankäytölle ja kaikelle sekavuudelle – josta loppupeleissä usein päädymme syyttämään algoritmia.

Tämän takia kannustaisin ihmisiä jotka pohtivat näitä asioita enemmän miettimään, miten voisimme laajentaa käsitteellistä repertuaariamme ja tuoda esille kuinka monimutkaisesti algoritminen päätöksenteko toimii ja mitä kaikkea siellä onkaan mukana. Tämän esilletuonti on myös tärkeää, jotta ihmiset ymmärtäisivät kuinka monissa tekoälyjärjestelmissä lopulta kyse on muiden ihmisten tuottaman ja jäsentämän datan hyödyntämisestä. Muistatko kuinka yllätyksenä viime syksynä monille tuli, että puheentunnistuksessa osaa aineistoa käytetään laadun tarkkailuun ja parantamiseen – ja että tätä aineistoa kuuntelevat muut ihmiset. Kuka muukaan voisi onnistuneesti tehdä tämän? Tietokone on vain opetettu näyttämällä todella paljon esimerkkejä äänestä ja vastaavasta tekstistä, mutta ei se ole näin älykäs. 

Ehkäpä tulevaisuudessa myös osaamme suunnitella algoritmisia järjestelmiä niin, että niissä tulee paremmin esille järjestelmän kokonaisluonne. Kelalla on jo töissä monia virkakielen huoltajia. Milloin palkataan ensimmäiset algoritmisten järjestelmien luettavuuden parantajat?

 

Onko maailma erilainen riippuen siitä kenen tekoäly sitä katselee?

Jokainen verkkomedian tutkija on varmasti havainnut, kuinka mediaympäristössä kuvilla on yhä suurempi merkitys. Melkein jokaisella on mukana vähintään yksi kamera jatkuvasti, jolla otetaan ja jaetaan kuvia arkipäivistä ja juhlista. Samoin uutisissa visuaalisuuden rooli on edelleen tärkeä – teksti ilman kuvaa ei välttämättä vetoa lukijoihin samoin kuin aikaisemmin. Internetissä video- ja kuvamateriaalin määrä on kasvanut ja useat suositut palvelut, kuten TikTok sekä Instagram pohjautuvat suurimmalta osin audio-visuaaliseen materiaaliin.

Tämä luo yhteiskuntatieteen tutkijoille taas uusia haasteita. Olemme vasta oppimassa menetelmiä suurten teksiaineistojen analyysin, mutta maailma on ollut meitä nopeampi ja vaatii jälleen uusia näkökulmia ja menetelmiä asioiden ymmärtämiseen. Visuaalinen big data myös välttää tekstiaineistojen analyysin joitain haasteita ja esimerkiksi kuvien leviämistä voidaan seurata sosiaalisen median ryhmissä hyvinkin helposti jopa kansainvälisesti – kieli ei muutu. Usein meitä kuitenkin kiinnostaa ymmärtää sisältöjä paremmin, esimerkiksi sisällön erittelyn kautta.

2019-11-10 16.16.00
Koneoppijan mielestä tämä kuva on: Daytime, Sky, City, Public Space, Human Settlement, Road, Residential Area, Urban Area, Asphalt, Metropolitan Area, Tree, Infrastructure, Park, Road Surface, Downtown, Architecture, Neighbourhood, Skyline, Real Estate, Thoroughfare, Building, Suburb, Urban Design, Street, Lane, Walkway, Cloud, Recreation, Plaza, Town Square, Sidewalk, Nonbuilding Structure.

Ei hätää! Koneoppimisen, tai trendikkäämmin tekoälyn, avulla voimme automaattisesti sanoa, mitä kuvissa on. Se ei tietenkään ole täysin tarkkaa, mutta ei se ole myöskään täysin satunnaista. Useat isot alustat ovatkin rakentaneet omia mallejaan kuvien automaattiseen tunnistamiseen sekä “tagaamiseen”, eli sisällön erotteluun. Palveluita löytyy niin Microsoftilta kuin Googlelta. Mutta! Mitä palvelua yhteiskuntatieteilijän kannattaisi käyttää, jotta tulokset olisivat mahdollisimman oikein? Toinen muotoilu tälle kysymykselle on: mitä eroja eri kuvatunnistuspalveluiden välillä on?

Otin satunnaisen 150 kuvan ryhmän ja laitoin niissä olleet kuvat Microsoftin, Googlen, Amazonin ja IBMn kuvatunnistuspalveluihin. Olen juuri työstämässä tarkempaa analyysiä sekä menetelmistöä analyysipalveluiden välisten erojen tunnistamiseen, mutta tässä on alustava yleiskuva palveluista – kuten näkyy, eroja siinä miten nämä 150 kuvaa nähdään tuntuu olevan.

Tule kuulemaan tarkempia alustavia tuloksia Digital Humanities Research Seminar-tapahtumaan 26.3. kello 16 Metsätalolle (Sali 10, Unioninkatu 40) – sekä toki myöhemmin tänne blogiin tulevien päivitysten kautta. Esitys on englanniksi, mutta blogiin teksti tulee suomeksi.

Puolueiden vuorovaikutuksesta vaaleissa – varhaisia ajatuksia

Olen mukana pohtimassa pohjoismaisten puolueiden puheenjohtajien ja puoluetilien käyttöä viimisimmissä vaaleissa muutaman muun tutkijan kanssa. Sen takia olen nyt tuijoitellut sosiaalisen median tilien sisältöä ja olemme pähkäilleet mikä on tarina jonka haluamme datalla kertoa. Täysin eksploratiivista tutkimusta siis. Yksi suunta jota olemme kovasti pohtineet on ollut ymmärtää miten yleisö reagoi, eli kuinka he uudelleenjakavat, kommentoivat tai käyttävät hienoja reaktiohymiöitä Facebookissa puolueiden viestien kohdalla. Koska tästä tulee kivasti kolme dimensioita, kokeilin miten tässä voisi käyttää hienoja kolmiulotteisia käppyröitä apuna.

Esimerkiksi näemme, että vihreiden viestit saavat melko hyvin reaktioita, jonkun verran jakoja ja vhähän kommentteja. Sinisten viestit taas saavat kyllä jonkun verran jakoja, mutta vähän reaktioita ja kommentteja. SDP taas on selvästi aktiivisempi, saa enemmän reaktioita ja jakoja mutta vähän kommentteja.

No mitä tästä saa, paitsi toki pääsäryn? Osaltaan uskoisin, että nämä kuviot kertovat myös erilaisista Facebookin käyttötavoista puolueiden välillä. Vaikka tässä tulkitaan sitä mitä yleisö tekee – miten yleisö reagoi – niin selvästi esimerkiksi Perussuomalaisten ja Kokoomuksen yleisöt reagoivat varsin samalla tavalla. Samoin SDP, Vasemmistoliitto sekä jossain määrin vihreät vaikuttavat varsin samanlaisilta. Sen takia nämä kuviot eivät vaikuta sattumalta, vaan niissä näkyy puolueiden välillä yhtenäisyyttä – ja selvästi painottumista tiettyyn kohtaan jakamisen, kommentoinnin ja reaktoiden kolmikentällä. Käppyrät eivät ole mitenkään selkeästi tasajakautuneita.

Mahdollisesti eroja voisi selittää osittain yleisöjen lukumääräiset erot. Mutta kun vähän yrittää miettiä näitä esimerkiksi äänestystuloksiin (koska muuta erinomaista arviota puolueiden sosiaalisen median yleisöistä ei heti tulee mieleen), niin samankokoisetkin puolueet sijoittuvat eri tavalla kolmikenttään. Varmasti tätä voisi yrittää hallita, jos sosiaalisen median palvelusta vain saisi vielä enemmän tietoja irti.

Mutta mitä tämä sitten tarkoittaa? Verkkotutkimuksessa puhutaan aika usein vuorovaikutuksesta. Noh, vuorovaikutamme sisällön kanssa jakamalla sitä, jotkut ovat puhuneet reaktioista pieninä poliittisen tuen osoituksina (slacktivism) ja kommentit ovat erittäin tiivistä vuorovaikutusta jo. Miettivätkö puolueiden viestintäihmiset minkälaista vuorovaikutusta he haluavat yleisöltään ja miten tälläistä saisi irti tietynlaisella sisällöllä? Silloin voidaan esimerkiksi strategisesti suunnitella viesti sillä tavalla, että se kannustaa esimerkiksi kommentoimaan, tai käyttämään erilaisia reaktioita. Liittyvätkö nämä jopa jotenkin erilaisiin ajatuksiin Facebookin algoritmisesta suosittelujärjestelmästä ja pyrkimyksestä kehittää sisältöä suhteessa siihen.

Paljon avoimia kysymyksiä ja pohdintoja, vähän valmiita vastauksia vielä toistaiseksi. Mutta kolmiuloitteiset käppyrät tuovat esille mielestäni hyvin ei keskimääräistä massaa ja eroja siinä, vaan kuinka postaukset sijoittuvat samaan aikaan näillä kolmella akselilla.

 

Rajapintaisuudesta – palkintoraadin näkemyksiä

Saimme kahdeksan erinomaista ehdotusta Rajapinnan opinnäytetyöpalkinnon saajaksi. Palkintoraatimme (Airi Lampinen, Emily Öhman, Antti Salovaara, Jaakko Suominen, Aleksi Suuronen, Sanna Tiilikainen) ovat ystävällisesti käyneet kaikki ehdotukset läpi ja kaksi palkinnon voittajaa julkistetaan Rajapinta-päivien townhall-tapaamisen yhteydessä.

Opinnäytetyöpalkintomme on poikkitieteellinen: viime vuoden palkinnon voittajista toinen oli informaatioverkostojen alaan kuuluva ja toinen viestintätieteisiin kuuluva. Tänä vuonna ehdokkaina oli myös esimerkiksi taiteen tutkimuksen, digitaalisen kulttuurin, viestinnän, sosiologian ja sosiaalityön opinnäytetöitä. Palkintoraati oli jo viime vuonna – ja on samoin tänä vuonna – haastavassa roolissa. Eräs keskeinen kriteeri arviossa on työn rajapintaisuus.

Mutta, mitä tarkoittaa rajapintaisuus? Yhdistyksen sääntöjen mukaan, tavoiteemme on tieto- ja viestintäteknologian yhteiskunnallista tutkimuksen ja tietoteknologiaa soveltavia tutkimusmenetelmiä yhteiskuntatieteelliseen tutkimuksen kehittäminen ja tukeminen. En ole mitenkään erityisen tyytyväinen tähän muotoiluun, mutta jos muistan oikein, olen sen itse ehdottanut epämääräisenä ja huonona ratkaisuna, koska emme keksineet mitään elegantimpaakaan.

Luvan kanssa käyn läpi palkintoraadin arvioita ja yritän sieltä nostaa esille, miten tämä ryhmä määrittelee rajapintaisuuden.

Teknologiaa, antamatta sen dominoida

Monet arvioitsijat korostivat, että työstä tekee rajapintamaisen niiden halu yrittää ymmärtää tietoteknologiaa jostain näkökulmasta, kuitenkin löytäen mielekäs tasapaino tietoeknologian ja käsiteltävän aiheen välillä:

Työ käsittelee oleellisesti teknologian ja tiedonmuodostusprosessin välistä suhdetta

Teknologia on tämän työn ytimessä, dominoimatta kuitenkaan kokonaisuutta

— rajapintamaista kriittinen ja analyyttinen suhde digitalisaatioon —

Menetelmällisiä huomioita

Tutkimusmenetelmät herättivät jonkin verran keskustelua palkintotyöryhmässä. Menetelmällisinä lähestymistapoina töissä on ollut niin perinteisiä yhteiskuntatieteellisiä menetelmiä – laadullista ja määrällistä tutkimusta – sekä uudempia, laskennallisia menetelmiä. Kuitenkaan, palkintoraati ei pitänyt tätä keskeisenä tekijänä, vaan lausunnoissa tätä käytettiin laajentamaan pohdintaa teknologian roolista työssä:

Kyseessä on kuitenkin metodisesti sangen perinteinen työ, jonka tutkimusongelmaan tietotekniikka liittyy vain löyhästi.

Toisaalta, laskennallisten menetelmien käyttö voidaan nähdä etuna työssä ja tukevan sen rajapintaisuutta

Työllä on rajapinta-aspekti sekä media-analyysin kannalta että käytettyjen laskennallisten menetelmien puolesta.

Siiloutumista vastaan

Kun yllä olevat kaksi perspektiiviä heijastelevat melko hyvin yhdistyksen sääntöjen muotoilua, oli arvioinnessa luettavissa myös kolmas näkökanta: töiden halu pyrkiä toisaalta tieteenalojen siiloista tieteenalojen rajapinnoille ja toisaalta tieteen norsunluutornista myös haastamaan yhteiskuntaa.

Työ [ei] yhdistä aihettaan tai tuloksiaan osaksi mitään suurempaa yhteiskunnallista kysymystä sen varsin tarkkaan rajatun aihepiirin lisäksi, en suosittele sitä voittajaksi.

Herättää ajatuksia tieteellisesti kestävällä tavalla. Ravistelee sekä työn katsojaa että tieteentekijöitä yleensäkin.

Tämä työ on paitsi vahva akateeminen suoritus, myös laajemmin mielenkiintoinen avaus tärkeään teemaa – ja siksi oivallinen ehdokas palkittavaksi!

Opinnäyte edustaa juuri sellaista kekseliäisyyttä ja rohkeutta tarttua monimutkaisiin ja monialaisiin kysymyksiin, jota pidän rajapintamaisena.

Mitä tästä sitten opittiin?

Rajapintaisuutta voi opinnäytetyössään näyttää monella tavalla. Työn aihepiirin valinnassa teknologian ja yhteiskuntatieteen rajapinta on luontainen esimerkki rajapintaisuudesta. Toisaalta, uudenlaiset digitaalisuuteen perustuvat menetelmälliset lähestymistavat voivat olla indikaattoreita rajapintaisuudesta.

Toisaalta, työn kyky haastaa nykyisiä tieteenalojen tai yhteiskunnan käytäntöjä vaikuttaa myös keskeinen teema palkintoraadille. Toisaalta, yhteiskunnan teknologiset käytännöt (tai niiden puute) voivat olla töissä esillä, toisaalta myös yritetään käyttää teknologiaa osana haastamisprosessia.

Eliitti, mitä haluatte – bulkkikoodareita liukuhihnalta vai digitalisaatiovelhoja?

Joukko ohjelmistoalan yrittäjiä, liikejohtajia ja muuta yhteiskunnan eliittiä argumentoivat (HS 18.6.), että Suomi tarvitsee enemmän koodareita. He esimerkiksi sanovat, että

Koodarivajeen paikkaaminen on suomalaisyritysten kasvun elinehto. Tarvitsemme lisää koodauksen koulutuspaikkoja, rohkeita uudelleenkouluttautujia, jatkuvaa osaamisen kehittämistä ja kansainvälisten huippujen aktiivista houkuttelemista Suomeen.

Samanlaista puhetta on kuulunut nyt vuoden-kahden ajan, esimerkiksi Elinkeinoelämän valtuuskunta EVA sekä valtavirran media (Talouselämä, YLE) ovat nostaneet esille täysin samaa kriisiä. 2010-luku ei ole ensimmäinen vuosikymmen kun koodarien puutetta on valiteltu. Nokian vaatimuksesta ohjelmistoalan koulutusta lisättiin merkittävästi aikanaan; tyydyttämään sen aikaista koodaripulaa. Kuitenkin, nyt on ilmeistä ettei koodarien koulutuksen lisääminen pelastanut matkapuhelinliiketoimintaa. Miksi olettaa siis, että tilanne olisi nyt toisenlainen – ja miksi ratkaisu olisi nimenomaan kouluttaa koodareita?

Digitaalinen murros on muuttanut ja tulee muuttamaan yhteiskunnan ja liike-elämän toimintaa. Digitaaliset työvälineet ja ympäristöt ovat läsnä yhä useamman työläisen arjessa. Myös niiden suunnittelu sekä kehittäminen koskettaa yhä useampia työpaikoilla.. Tietotekniikan pohdinta leviää aloille, joissa ei ole perinteisesti mietitty tietotekniikkaa kovinkaan paljon. Mutta tämä on eri asia kuin tarve koodareille!

Vaikka puhutaankin koodarivajeesta, niin ei ole selvää tarvitaanko lisää tietotekniikan koulutusputken läpikäyneitä koodareita. Myös HSn mielipidekirjoituksessa kuvataan tulevaisuuden koodareita varsin laajasti, kritisoiden nykyistä koulutustamme:

Ammattitaitoisten koodaajien joukko on tätä nykyä paitsi liian pieni myös liian homogeeninen. Suomi tarvitsee lisää alan koulutusta sekä uuden käsityksen siitä, kenelle koodaus on oikea ammatinvalinta. Tulevaisuuden koodareilta tarvitaan matemaattisen tai teknisen taidon rinnalle luovaa ja yhteiskunnallista ajattelua. Psykologiaa, sosiologiaa, palvelumuotoilua. Tulevaisuuden taiteilijat ja tuloksentekijät, innovaattorit ja muotoilijat ovat myös koodaajia.

Vastaus koodaripulaan ei siis voi olla vain koulutuksen kasvattaminen tietojenkäsittelytieteen ja tietotekniikan koulutuksessa. Koodaamisen ja ohjelmistotuotannon sijaan ensiarvoisen tärkeää olisi, että yhä useampi ihminen osaisi ottaa käyttöönsä teknologian suomia mahdollisuuksia. Digitaalisen murroksen keskeinen muutos on ymmärtää mitä voidaan automatisoida, tai kuten nykyaikana sanottaisiin, siirtää tekoälyn hoidettavaksi. Digitalisaation avulla voidaan luoda uudenlaisten tuotteiden ja palveluita, mutta missä koulutamme tällaisia taitoja esimerkiksi psykologeille, sosiologeille tai palvelumuotoilijoille?

Koulutukseksi ei uskoakseni riitä tietojenkäsittelytieteen sivuainekokonaisuus. Sen sijaan  tarvitaan uudenlaisia kurssikokonaisuuksia, jotka käsittelevät informaatioteknologiaa alan oman oppihistorian ehtojen mukaisesti. Esimerkiksi opettamani valtiotieteellisen tiedekunnan ohjelmointikurssi eroaa tietojenkäsittelytieteen laitoksen kurssista. Ohjelmoinnin opetus kytkettyy osaksi  yhteiskuntatieteen tutkimusta. Esimerkiksi luemme yhteiskuntatieteellisiä artikkeleita, joissa ohjelmoimalla on tehty mielenkiintoisia osia tutkimuksesta. Toivon, että kurssin lopulla opiskelijat eivät vain osaa ohjelmoida, vaan myös näkevät paremmin, miten ohjelmointia voidaan käyttää yhteiskuntatieteen kannalta mielekkäästi. Ohjelmointiopetuksen lisäksi olisi välttämätöntä muodostaa selkeitä kokonaisuuksia informaatioteknologian ymmärtämisen, analyysin ja hyödyntämisen ympärille. Rajapinta-kurssi on ollut hyvä avaus tässä, mutta onko se tarpeeksi?

Ymmärrän täysin huolen osaamisvajeesta. Kuitenkin osaamisvajeen käsitteleminen nimenomaisesti koodarien puutteena voi johtaa väärintulkintaan ongelmasta. Uskon, että ongelma ei ole vain tietotekniikan koulutuksen vähäisyys vaan myös digitalisaation ymmärtämistä käsittelevän koulutuksen puute muilla aloilla.

Viime vuosina ainakin Helsingin yliopistolla on otettu varovaisia ensiaskelia digitaalisuuden ymmärryksen tukemiseen. Askeleet ovat varmasti olleet hitaita ja varovaisia, koska digitaalisuus nykymaailmassa on poikkitieteellinen ilmiö: sen sijoittaminen tieteenalojen päällä toimivalle yliopistolle ei ole ollut helppoa. Kansainvälisestihän ongelma on ratkaistu perustamalla vanhoista tieteenaloista irrallisia rakenteita.

Ehkäpä koodarien massakoulutuksen sijaan kansakuntamme kannattaisi vihdoin panostaa digitaalisuutta käsittelevien poikkitieteellisien koulutus- ja tutkimusinstituutioiden pitkäjänteiseen kehittämiseen.

SICSS Helsinki final reflections

The SICSS Helsinki partner site was organized in Helsinki, Finland. We organized it as a two-week institute: the first week was focused on lectures and the second week on group projects. We had a total of 19 participants, an instructor and two TAs. Participants were both from Finland (University of Helsinki, Aalto University, Tampere University of Technology, Turku University) as well as from other European countries (Netherlands, Poland, Germany, Denmark) and rest of the world (India, Turkey). The overall net promoter score (based on the after-course evaluation) was 9 – indicating that the participants considered the course successful and would recommend it to their colleagues. Similarly, the textual feedback suggested that the course was found helpful, engaging and even fun.

This is a final reflection document for the SICSS organized at Helsinki. Similar reflection documents have been written in all SICSS sites.

Group dynamics

We had made a deliberate decision at Helsinki to take the student group to an offsite location for the first week in Tvärminne. Beyond providing a fabulous venue in terms of scenery, outdoor activities and food, it also forced participants to have an on-campus experience for the first week, and socialize. Based on my random observations, this seemed to be happening during the evenings, after the classes. Similarly, we chose to organize after work activities during the second week, which aimed to help to mitigate some of the challenges of lack of residential accommodation and social activities which emerges from that collocation.

What I found challenging and surprising was the need to facilitate group processes during the second week focused on group work. This was not extensive, and rather often groups seemed to manage on their own with this. We were rather pressed for time during the second week, but I’m thinking should we organize dailies similar to agile software production: each team member would speak for a few minutes what they are doing next, what have they done and if they have any major challenges. It might help us to intervene quickly in the group processes facilitation to potential problems and help the groups to manage the time and workload of such a short project. Ideally, over the week, we should move the responsibility of organizing these dailies to the groups.

Something I was disappointed myself was lack of a “global” community of SICSS in the course Slack community. I believe that majority of comments from Helsinki to the public channel came from me or our TAs. Reasons for this may include the time difference between Europe and the US – but maybe also some failures to motivate and incentive this correctly by my side. Maybe next year, the Slack community management could consider establishing smaller channels for particular topics (“communities of practices”) to help people finding smaller venues where they can collaborate and share ideas and comments. Another aspect which I think might be helpful would be to start the online community building way before the event, also content wise. For example, maybe we could create for some of the pre-readings cross-national reading groups or other activities which would encourage them to speak with people from other communities?

Instruction and activities during the first week

Something we spend a lot of time discussing with my TAs (in our debrief after SICSS) was the scope of the instruction. We covered many different things during the first week to provide a general overview of several different method families in computational social science. However, the question was if there should be a more extensive discussion about some methods to ensure that students are able to fully understand them and not just rush through them. It was even proposed that we should really go through some basics of algorithms and computer science for the students.

However, I believe that the current idea of providing a rich overview of different methods is a good choice. It will familiarize students with many opportunities and help them to rethink social research. However, this is a communication challenge: this type of pedagogical choice needs to be explained and articulated. I did a few rounds of talks focused on this topic, but having that mentioned already on day one would be nice. (For example, one student commented in the feedback form that we could have a separate institute on any of these topics – which is true – and thus indicating that we should have been much more clear on the scope and idea behind that scope).

The second aspect which we discussed with my TAs and some participants explicitly commented: the course was a good crash course for people entering computational social science from a social science background, but for people coming from computer sciences and familiar with data science things many aspects of these lectures were rather boring and even useless. We tried to introduce to some activities (ad hoc) refocus on aspects such as teaching qualitative research methods to those not familiar with them or directing them to consider social science theory of their data analysis. These types of aspects could be more baked into the activities material next year (and I’m happy to help editing them towards this goal).

I will discuss video lectures later, but we had a mix of content coming from Helsinki (i.e., I was instructing the content) and some parts we choose to take as video lectures. Something I found difficult when instructing was to find the correct balance between audience participation and me lecturing topics. (To be honest, I actually don’t usually enjoy lecturing that much.) In some of my regular computational social science classes at the University of Helsinki, I usually ask students to read a case study before the class which applies the approach or method we are learning. It serves two aspects: first, we can use that article to develop fruitful discussions with the students and therefore, I don’t need to lecture as much. Second and more importantly, the case studies provide the students with an opportunity to see how “social science theory” (whatever that means) is integrated into the computational work – which I also believe to be a core skill in computational social sciences. If I’m organizing a class like this next year, I would integrate a component like this to balance the me-speaking – students-speaking a bit.

The video lectures

Overall, given the time difference organizing the video lectures was somewhat challenging. For the guest lectures (given at Duke in the evening) we opted to watch them delayed the next day. This reduced some aspects of their liveliness, which many students commented in a somewhat negative tone. We tried to stop these lectures when possible to discuss the lectures in our group (a proposal by one of the students) and this seemed to make them somewhat more engaging. I would recommend the similar idea to other locations which must follow lectures in non-live format.

On the instruction (given at Duke during the morning), we chose some topics where we followed the Duke stream while on other topics I chose to hold the lectures myself. The student feedback suggested that they liked these locally provided lectures more than following live streams from Duke, so I think we made the right decision to develop some instruction on our own. Naturally, the challenge with this is that the quality and content between the institutes may vary somewhat (for example, for text analysis, I chose to start the lecture by speaking about traditional qualitative research methods). However, I think that some quality bonus we had from organizing these locally – such as a high level of interactivity and ability to react to local situations – was worth of this extra investment. In future years, I would examine to replace even more of these lectures when possible and to support on that, produce the materials early enough to allow discussions of them within the instructor community to find potential areas of improvements.

The project week

My only concerns which emerged from the project week related to the group dynamics and lack of proper theoretical reflections during them. I think our group creation process could have been clearer for people; we asked everyone to list topics they find interesting and in collaborative manner, mark which of them they might consider working on. Initial groups were formed based on that and even while I tried to encourage participants to not stay in what seemed like the local optimum, these groupings were set. I think next time, I would force people to change the groups and have similar discussions once or twice to show them the range of opportunities. Furthermore, facilitation of the project management as discussed above may have helped in this. Similarly, on the theoretical reflection, I did ask people to produce a mind map on the first day about theoretical concepts and literature and relationship between those and what they planned to do. Sadly, this itself did not seem to help students enough to engage in this thinking and follow that throughout the week. Again, scaffolding and facilitation may provide helpful in this.

Facilities

While the first week facilities were excellent, the second-week facilities were in our use daily only from 8am to 4pm. This limited some activities and influenced our scheduling. As the summer institute is during summer, many spaces at the University of Helsinki just closed a bit too early. Next year, I would reconsider the second-week location to have a few more hours of shared time. Also, I would have a clear single location for all non-Helsinki visitors and recommend they stay there to reduce some extra coordination efforts.

Negotiating interdisciplinary and cultural boundaries

Something I tried to bring you in fishbowl discussions was the interdisciplinary nature of computational social science and some of the challenges and problems related to this. Sadly, while I enjoyed these discussions, their intention may not have been as clear for participants as it was to me. I have been working across different academic communities for a long time and thus, rather familiar in interdisciplinary collaborations. They take time and often require a lot of flexibility and openness. However, I think that I understand the difficulties of these jumps as I’m so familiar with them and thus, didn’t provide as much support as one could have provided during the two weeks. For example, the fact that I rarely addressed traditional social science theories and methods in the instruction could have helped participants to follow the teaching more and made the classes more engaging to people from computer science background as well.

Similarly, the problem with teaching interdisciplinary groups is their internal heterogeneity in terms of skills. One solution worth of consideration could be to separate the group based on skills or provide even more modular learning activities, where we could assign different participants and groups slight variations of the same tasks to make them more engaging or to allow participants to enter the zone of proximal development. This again would most likely push us to reconsider the role of lectures and instruction.

Finally, people did come from different cultures (not only country wise, but also academic cultures), which meant that their understandings of – among other things – research contributions, the value of group work and ideas of good instruction differed. These were not something major challenges in the project. However, for me better managing this boundary work in the future is critical and having tools and approaches to facilitate students with these is necessary. Sadly, I don’t yet have a clear and good solution to this problem.

Conclusion

The aim of this reflection has been to pinpoint potential areas for improvement, both for myself as well as other SICSS communities and their organization. Therefore, I have aimed to address challenges and problems and discuss them in an extensive manner. However, as said in the beginning, most participants had a positive and engaging experience with this summer institute. The ideas and comments throughout this text may help to further improve the learning and clarify some of the difficulties observed.

We thank the support from Russell Sage Foundation, Alfred P. Sloan Foundation and Helsinki Institute for Information Technology HIIT for their generous financial support.