Tutkimusryhmämme ja muut tutkimusystäväni ovat olleet mukana monissa yhteiskuntatiedettä sekä laskennallisia menetelmiä yhdisteleville tutkimushankkeille. Toisaalta olen opettanut laskennallisia menetelmiä yhteiskuntatietelijöille usean vuoden ajan ja nähnyt myös tietojenkäsittelytieteilijöiden yrityksen hahmottaa yhteiskuntatieteellistä ajattelutapaa. Tämä essee pyrkii kasaamaan jotain keskeneräisiä ajatuksiani tästä ongelmakentästä ja toivoakseni auttaa herättämään keskustelua, jonka avulla voin jatkaa ajatusten kehittämistä.
Taustaksi
Tietojenkäsittelytieteen alalla on jo vuosikymmeniä tutkittu ohjelmistotuotantoa ja ohjelmistotuotannon menetelmiä. Datatiedettä soveltavat projektit taas ovat varsin uusi ilmestys myös tietojenkäsittelytieteen kentällä, emmekä vielä tiedä kovinkaan paljon tämän kaltaisten projektin ongelmista. Perinteisten ohjelmistoprojektin epäonnistumisesta on tietojenkäsittelytieteen alalla varsin runsaasti. Esimerkiksi ongelmien taustalla on niin aikatauluongelmia, tarpeiden muuttumista ja näiden seurauksena syntyviä yllätyksiä (klassinen ja kivasti kirjoitettu teksti aiheesta, katso Fairley & Willshire, 2003). Samaan aikaan datatieteellisistä projekteista tiedämme harvinaisen vähän.
Carter & Sholler (2016) valloittavat datatietelijän arkea. Heidän työnsä kertoo meille, että datatieilijät motivoituvat mielenkiintoisista ongelmista, aidoista ja mittavista aineistoista sekä mahdollisuudesta olla luovia. Toisaalta, haastatellut datatieteilijät eivät koe erityistä tarvetta sitoutua ongelmakentän teoriaan ja osa jopa nauttii siitä, etteivät perinteiset akateemisen tutkimuksen rajoitukset aina päde datatieteelliseen työhön yrityksissä. Mielenkiintoisia havaintoja, mutta niistä ei ole mitään hyötyä datatieteellisen projektin johtamisessa. Saltzin ja kumppaneiden (2017) artikkeli datatieteellisistä projekteista on avuliaampi. He tunnistavat neljä eri tyylistä datatieteellistä projektia. Projekteja määrittää niiden tarve löytää itse oma tutkimuskysymyksensä (discovery) sekä datan määrä ja laatu ja siihen vaadittavat panostukset (infrastructure). Jos sekä discovery että infrastructure olivat korkeilla, Saltzin ja kumppaneiden mukaan projekti oli vaikea lopulta perustella: se mitä projektin haluttiin saavutettavan, oli epämääräistä, mutta projekti vaati merkittäviä panostuksia. Tuottavuuden kannalta he enemmän suosittelivat jotain kolmesta muusta vaihtoehdosta: joko selkeästi kokeilevia projekteja (matala infrastructure, korkea discovery) tai selkeärajaisia projekteja (korkea infrastucture, matala discovery) sekä pienimuotoisia projekteja (matala infrastucture, matala discovery). Tulos on mielenkiintoinen, mutta ei vielä vastaa varsinaiseen kysymykseen: miten sitten tehdä laskennallisen yhteiskuntatieteen projektitöitä?
Makro- ja mikrotaso
Yhteiskuntatietelijät ovat tottuneet ajattelemaan ilmiöiden tutkimista makro- ja mikrotasoilla. Makrotasolla tutkitaan laajemmin koko ilmiötä – esimerkiksi yhteiskunnan tasolla – kun taas mikrotason analyysi on selvästi pienemää tutkimusta. Samalla tavalla laskennallisen yhteiskuntatieteen – tai oikeastaan laajemmin, minkä tahansa datatieteellisen – projektin tarkastelua voidaan tehdä makro- ja mikrotasolla. Mikrotasolla voitaisiin arvioida esimerkiksi sitä, miten laskennallinen mallinnus liitetään osaksi perinteistä tutkimusta. Useat ehdotukset erilaisista lähestymistavoista, missä laskennallista analyysiä yhdistetään perinteisten tutkimusmenetelmien kanssa (Laaksonen et al., 2017; Muller et al., 2016; Nelson, 2017) kuvaavat hyvin tämänkaltaista mikrotason analyysiä. Makrotasolla taas voitaisiin miettiä, kuinka kokonainen projekti järjestetään ja pyrkiä ymmärtämään projektien järjestämisen ongelmakenttää laajemmin – kuten on jo tehty ohjelmistokehityksen alalla.
Two turkies don’t make an eagle
Helppo lähestymistapa on tuoda kaksi laskennallisen yhteiskuntatieteen (tai datatieteen) tekemiseen tarvittavaa profiilia yhteen: henkilön A, jolla on syvällinen osaaminen domain-alueesta (ja usein vähäinen osaaminen datatieteestä) ja henkilön B, jolla taas syvällinen osaaminen keskittyy tutkimusmenetelmiin ja niiden kehittämiseen.
Tällöin suurimpia haasteita on yhteistyön tukeminen eri alojen välillä. Tieteen tutkimuksessa eräs tunnistettu mahdollisuus on luoda trading zoneja (Collins et al., 2007; Galison, 1999). Trading zone mahdollistaa alojen välisen yhteistyön luomalla tilan, jossa eri alojen asiantuntijat voivat tuoda keskeisiä ajatuksiaan esille. Toisaalta, ainakin oma lukemiseni korostaa sitä, että trading zonella pitää olla tarjolla hiukan yksinkertaistettuja versioita kunkin alan osaamisesta. Tarkoitus on tukea yhteistyötä, jolloin trading zonella olevan tiedon pitää olla hyödynnettävissä myös niille, jotka eivät ole asiantuntijoita. Eli vaikka yhteistyö muodostuu, niin se muodostuu kunkin tieteenalan paloista ja niistä kootusta uudesta palapelistä. Tämä saattaa olla vaikuttaa hiukan erikoiselta palapeliltä kunkin alan asiantuntijalle.
Toisaalta, trading zonen käsite ei ota huomioon akateemisen maailman erityispiirteitä, erityisesti tutkijan uran muodostumista. Van Wijk (2006) huomio, että tiedon visualisaation tutkimuksessa eräs ongelma on erilaiset tavoitteet uran kannalta: kun alan soveltaja kaipaa hyödyllistä menetelmää, visualisaatiotutkijan keskeinen tehtävä on esittää uudenlaisia menetelmiä visualisointiin. Samoin menetelmätutkijan pitäisi esittää uusia menetelmällisiä huomiota ja kehittää uusia menetelmiä – mutta uusien menetelmien käyttö domain-osaajan artikkelissa voi olla haastavaa. Kysymys siis onkin, että kumman uraa halutaan edistää enemmän? Toki on ilmeistä, että on mahdollista samaan aikaan tehdä uraauurtavaa työtä niin menetelmien kuin sovelluskohteiden parissa. Esimerkiksi Ronald Fisherin työ ANOVAn kehittämisessä pohjautui maatalouden tutkimukseen. Toisaalta, hänestä on myös sanottu että ”he could have been a first class mathematician had he “stuck to the ropes” but he would not.” (Box, 1976).
Kompetenssien kehittäminen


Noh, jos ensimmäinen vaihtoehto osoittautuu haastavaksi, niin aina on mahdollista kouluttaa ihmisiä luoviksi moniosaajiksi. Esimerkiksi osaamisen kehityksessä on puhuttu laajemminkin siirtymisestä laajasta perusosaamisesta ja yhdestä erikoisosaamisesta (T-osaaminen) kohti laajempaa, jopa kahden eri alan syväosaamiseen (𝛑-osaaminen). Valitettavasti tämän saavuttaminen on ainakin nykyisessä tutkintomaailmassamme varsin vaikeaa.
Omassa opetuksessani olen pyrkinyt luomaan pohjaa yhteiskuntatieteilijöille ymmärtää ohjelmointia ja laskennallisia menetelmiä. Mutta tähän tulisi tietenkin käyttää merkittävästi aikaa! Ja valitettavasti aika ei ole rajaton resurssi. Tutkimuksesta kiinnostuneet taistelevat jo nyt siitä, miten jakaa aikansa järkevästi esimerkiksi oman tutkimuksen, artikkelien lukemisen sekä kaiken muun välillä. Usein yksi ensimmäisiä kysymyksiä opiskelijoiltani on, että onko järkevää ajatella, että näiden lisäksi vielä yrittäisi oppia täysin uuden lähestymistavan ja siihen liittyvät menetelmät?
Toisaalta, olen omassa tutkimusryhmässäni nähnyt, kuinka vaikeaa tietojenkäsittelytieteilijän voi olla ymmärtää jotain yhteiskuntatieteellisen tutkimuksen perusteita – lähtien siitä, ettei tutkimuksessa käytetyille käsitteille välttämättä ole yhtä oikeaa ja täsmällistä määritelmää. Sen sijaan käsite muodostuu enemmän tutkijoiden välisen vuorovaikutuksen kautta ja sitä reflektoidaan myös tätä kirjallisuutta kampaamalla. Huomasin myös, että vaikka itse en ole pitänyt valtiotieteellistä koulutusta arvokkaana – se ei ole opettanut kovinkaan paljon suoraan työssä hyödynnettäviä taitoja, ainakaan minulle – niin siinä saadut ajatukset käsitteiden monimutkaisuudesta ja niiden käyttämisestä argumentaatioon ovatkin varmaan olleet ihan hyödyllisiä. Kuitenkin jälleen kysymys on: onko mielekästä tutkinnon lisäksi opiskella merkittävästi toisen tieteenalan ajatusmaailmaa ja tapoja toimia?
Ensimmäiseen kysymykseen vastaan aina, että mielestäni on – koska yhteiskuntatiede ja laskennalliset menetelmät ovat liian arvokkaita jätettäväksi vain tietojenkäsittelytietelijöiden käyttöön. Toiseen kysymykseen – jos se minulta kysyttäisiin, vastaisin myös kyllä. Uskoisin sen olevan varsin yleissivistävää nähdä, miten jokin toinen tieteenala lähestyy ongelmaa. Mutta tämä vaatii toisaalta resursseja, toisaalta myös sopivia opetusmateriaaleja, jotka pyrkisivät auttamaan tiedon integraatiossa.
Työkalujen kautta voittoon?
Neljäs ja varsin ilmeinen lähestymistapa – jonka tosin itse keksin vasta viimeisenä – on kehittää opiskelijoista hyviä työkalujen soveltajia. Tätä tietenkin tapahtuu jo nyt, esimerkiksi tilastollisten menetelmien kohdalla on välillä kyllä hyvin cargo cult -tyylisiä kokemuksia kun tuijotetaan jotain tunnuslukuja ymmärtämättä niiden merkitystä. Samoin koneoppimisessa tietenkin useat paketit mahdollistavat varsin monimutkaisten menetelmien käytön – ilman, että niiden sisuskaluja tarvitsee erityisemmin ymmärtää.
Ongelmalliseksi työkalujen käyttö tulee, kun työkalut – ei tutkimuskysymykset tai teoreettiset käsitteet – ohjaavat liiaksi työtä. Omille opiskelijoilleni luetutin tämän takia kriittisen algoritmitutkimuksen tekstejä ja pyrin niiden kautta herättelemään tervettä kriittisyyttä laskennallisiin menetelmiin. Myös oma työni aihemallinnuksen ja ohjaamattomien koneoppimismenetelmien kritiikissä on saanut tästä kirjallisuudesta oman osansa (Nelimarkka, 2019). Van Es ja kumppanit (2018) ovat hiljattain taas luoneet käsitteen ”työkalukritiikki” tuomaan esille digitaalisten menetelmien työkalujen kehittäjien tekemiä valintoja ja niiden järkevyyttä tutkimusten osalta.
Eli muiden tekemien työkalujen kohdalla isoin riski on, että työkalun ostamisen lisäksi ostamme sen työkalun korostaman tutkimuksen tekemisen paradigman ja lähestymistavat. Pahimmillaan joudumme taitavaan verbaaliakrobatiaan, jotta varmistamme, että työkalun tarjoama vastaus ja esittämämme tutkimuskysymys ovat jotenkin yhteydessä toisiinsa. Tämä ei välttämättä ole myöskään tie uudenlaiseen tapaan tehdä laskennallista yhteiskuntatiedettä.
Onko olemassa viides tie?
Kövin nyt läpi neljä erilaista keinoa nähdä laskennallisen yhteiskuntatieteen tutkimus. Kaikissa niissä on omat haasteensa: jotkut voivat olla tutkimusuran kannalta haastavia, toiset taas voivat johtaa siihen, ettei teoria ja menetelmä löydä toisiaan tieteellisessä artikkelissa. Kuitenkin niin tietojenkäsittelijöiden (esimerkiksi Wallach, 2018) kuin yhteiskuntatietelijöiden (esimerkiksi Grimmer, 2015) keskuudessa korostetaan, että laskennallisen yhteiskuntatieteen projektit onnistuakseen tarvitsevat sekä laskennallista osaamista että alan asiantuntemusta. Kysymys on, että miten onnistunut tiimityö saadaan aikaiseksi – onko olemassa viides tie kohti voittoa?
Lisäksi omana loppupuheenvuorona: olen pohtinut laskennallisen yhteiskuntatieteen projekteja ja niiden onnistumisia, epäonnistumisia ja haasteita esseeistiseen tyyliin. Kuitenkin kovasti haluaisin siirtyä esseestä johonkin empiirisempään ja pyrkiä oikeasti tunnistamaan työtapoja ja tarkastelemaan kriittisesti neljää kategoriaa, jotka esitin yllä. Mutta kuinka tämä pitäisi tehdä järkevästi?