reflection

Onko tekoälykiima jo liiketoimintariski?

Yritykset ovat innoissaan muuntamassa verkossa olevaa dataa arvokkaaksi käyttämällä niitä tekoälymallien koulutusmateriaalina – esimerkiksi suurten kielimallien kehityksessä. Onko datan kerääminen jo muuttumassa liiketoimintariskiksi?

Toukokuinen perjantai alkoi yllättävällä uutisella: työkontekstissa laajasti käytetty viestintäalusta Slack suunnittelee tekoälymallien kouluttamista käyttäen maailman kaikkien Slack-työtilojen dataa: niiden viestejä, tiedostoja ja muuta sisältöä. Yritys toki lupaa, että tekoälymallit eivät johda yksittäisen instanssin sisältöjen paljastumiseen, mutta ChatGPT-esimerkit ovat jo näyttäneet, että tällainen lupaus on hyvin vaikea täyttää.

Ehkäpä ei pitäisi olla niin yllättynyt. Sosiaalisen median alustayhtiöt kuten Meta ovat melko varmasti käyttäneet luomaani sisältöä tekoälymallien koulutuksessa, mutta tämä ei ole minua erityisesti koskenut. Vaikka Facebookin Messengeristä löytyy varmasti henkilökohtaisia ja noloja keskusteluja vaikka mistä, en ollut pohtinut asiaa hirveän syvällisesti. Ehkä tämä kertoo siitä, etten vaan koskaan edes ajatellut Facebookin kanssa olevan minkäänlaista yksityisyyttä. Vähän naureskelin, kun Reddit lisensoi alustansa dataa kielimallien kehittämiseen, koska siellä pienillä yhteisöillä on paljon aktiivisempi rooli moderoida sisältöä ja tätä kautta omistajuutta sisältöönsä.

Slack oli mielessäni erilainen, koska sen pääkäyttäjäryhmä ovat maksavat yritykset. Yritysten Slack-työtiloissa voi olla monia keskusteluja, joita ei ole tarkoitettu ulkopuolisten nähtäväksi, eivätkä yritykset muutenkaan ole halukkaita jakamaan yrityksen sisäistä dataa. Tämän takia ajattelin, että Slack ei koskaan lähtisi analysoimaan näitä sisältöjä — heidän maksavien asiakkaidensa intresseissä ei ole jakaa keskusteluja ja tiedostoja ulkopuolisten kanssa, edes anonymisoidusti. Täysin ennenkuulumatonta organisaation sisäisen viestinnän käyttö kieliteknologian kehittämiseen ei tosin ole, sillä oikeudenkäynnin myötä julkiseksi ja kuuluisaksi tullut Enron-sähköpostiaineisto on ollut varsin laajasti käytössä.

Mutta ei moitita vain Slackiä tekoälykiimasta. Viime viikolla OpenAI julkaisi puhuvan isoihin kielimalleihin pohjautuvan tekoälyn, jonka ääni kuulosti hyvin paljon Her-elokuvan tekoälyltä. Vaikuttaa siltä, että kyseessä ei ole sattuma vaan äänidataa on käytetty luvatta. Yllättävää on, että OpenAI on kysynyt lupaa, mutta vastaus on ollut ei – se ei kuitenkaan riittänyt pysäyttämään tekoäly-yhtiötä (ampumasta itseään jalkaan).

Slackin (tai sen omistajan Salesforcen) kohdalla oli yrityksen mielestä järkevää tehdä jotain, mikä luultavasti menee vastoin monien sen maksavien asiakkaiden ajatuksia tavalla jota Techcrunch kuvaa vain sanalla “sneaky”. Ainakin minulle teko vaikuttaa aika isolta liiketoimintariskiltä, varsinkin kun vaihtoehtoisia alustoja on olemassa. OpenAIn toiminta taas ei ole omiaan parantamaan mielikuvaa yhtiöstä, varsinkin kun oli jo ennestään selvää, että GPT:n opetusmateriaalissa on pakko olla runsaasti eri puolilta Internettiä kerättyä tekijänoikeuden alaista materiaalia ja esimerkiksi New York Times on aloittanut asian selvittämisen oikeusteitse. Julkinen mielipide voi olla näissä asioissa hyvin herkkä.

Molemmat esimerkit kertovat tekoälykiiman vauhdista tällä hetkellä. Mutta onkohan liiketoiminnallisesti järkevää rakentaa toimintaa luottamusta vähentävien toimintatapojen varaan keskipitkällä tai pitkällä aikavälillä?

– –
Kirjoittaja johtaa yhteisöllisen ja yhteiskunnallisen tietotekniikan ryhmää Helsingin yliopistolla. Hän myös lähetti myös GDPRn mukaisen tietojenpoistopyynnön Slackille perjantaina ja odottaa edelleen yrityksen vastausta siihen. Lisäksi hän pohtii ryhmäviestinnän siirtämistä Slackistä Mattermostiin.

Leave a comment