Onko maailma erilainen riippuen siitä kenen tekoäly sitä katselee?

Jokainen verkkomedian tutkija on varmasti havainnut, kuinka mediaympäristössä kuvilla on yhä suurempi merkitys. Melkein jokaisella on mukana vähintään yksi kamera jatkuvasti, jolla otetaan ja jaetaan kuvia arkipäivistä ja juhlista. Samoin uutisissa visuaalisuuden rooli on edelleen tärkeä – teksti ilman kuvaa ei välttämättä vetoa lukijoihin samoin kuin aikaisemmin. Internetissä video- ja kuvamateriaalin määrä on kasvanut ja useat suositut palvelut, kuten TikTok sekä Instagram pohjautuvat suurimmalta osin audio-visuaaliseen materiaaliin.

Tämä luo yhteiskuntatieteen tutkijoille taas uusia haasteita. Olemme vasta oppimassa menetelmiä suurten teksiaineistojen analyysin, mutta maailma on ollut meitä nopeampi ja vaatii jälleen uusia näkökulmia ja menetelmiä asioiden ymmärtämiseen. Visuaalinen big data myös välttää tekstiaineistojen analyysin joitain haasteita ja esimerkiksi kuvien leviämistä voidaan seurata sosiaalisen median ryhmissä hyvinkin helposti jopa kansainvälisesti – kieli ei muutu. Usein meitä kuitenkin kiinnostaa ymmärtää sisältöjä paremmin, esimerkiksi sisällön erittelyn kautta.

2019-11-10 16.16.00 — Koneoppijan mielestä tämä kuva on: Daytime, Sky, City, Public Space, Human Settlement, Road, Residential Area, Urban Area, Asphalt, Metropolitan Area, Tree, Infrastructure, Park, Road Surface, Downtown, Architecture, Neighbourhood, Skyline, Real Estate, Thoroughfare, Building, Suburb, Urban Design, Street, Lane, Walkway, Cloud, Recreation, Plaza, Town Square, Sidewalk, Nonbuilding Structure.

Ei hätää! Koneoppimisen, tai trendikkäämmin tekoälyn, avulla voimme automaattisesti sanoa, mitä kuvissa on. Se ei tietenkään ole täysin tarkkaa, mutta ei se ole myöskään täysin satunnaista. Useat isot alustat ovatkin rakentaneet omia mallejaan kuvien automaattiseen tunnistamiseen sekä “tagaamiseen”, eli sisällön erotteluun. Palveluita löytyy niin Microsoftilta kuin Googlelta. Mutta! Mitä palvelua yhteiskuntatieteilijän kannattaisi käyttää, jotta tulokset olisivat mahdollisimman oikein? Toinen muotoilu tälle kysymykselle on: mitä eroja eri kuvatunnistuspalveluiden välillä on?

Otin satunnaisen 150 kuvan ryhmän ja laitoin niissä olleet kuvat Microsoftin, Googlen, Amazonin ja IBMn kuvatunnistuspalveluihin. Olen juuri työstämässä tarkempaa analyysiä sekä menetelmistöä analyysipalveluiden välisten erojen tunnistamiseen, mutta tässä on alustava yleiskuva palveluista – kuten näkyy, eroja siinä miten nämä 150 kuvaa nähdään tuntuu olevan.

Tule kuulemaan tarkempia alustavia tuloksia Digital Humanities Research Seminar-tapahtumaan 26.3. kello 16 Metsätalolle (Sali 10, Unioninkatu 40) – sekä toki myöhemmin tänne blogiin tulevien päivitysten kautta. Esitys on englanniksi, mutta blogiin teksti tulee suomeksi.

Share this:

Leave a comment Cancel reply