Elokuussa 2020 järjestetyssä Kielipankki Live -verkkotapahtumassa Mietta Lennes haastatteli FIN-CLARINin tutkimusjohtaja Krister Lindéniä, joka kertoi Kielipankin roolista Lahjoita puhetta -kampanjassa.
– Vuosi sitten VAKE pyysi Helsingin yliopiston Kielipankilta selvityksen siitä, mitä tarvitaan sellaisen kielikeskeisen tekoälyn toteuttamiseksi, jolla voidaan edistää suomalaista yhteiskuntaa. Selvityksessä kävi ilmi, että monenlaisia tekoälyyn soveltuvia yleisaineistoja on, mutta teollisuudelle soveltuvia isoja arkikielen puheaineistoja vielä puuttui.
– Esim. YLEllä on paljonkin puheaineistoja, mutta niihin liittyy monella tavalla tekijänoikeuksia. Myös Kotuksella on isoja murreaineistoja, mutta niitä voi kiistattomasti käyttää vain tutkimustarkoituksiin, koska ne on kerätty ennen uutta GDPR:ää.
– Puhelahjoitukset on nyt kerätty sellaisilla sopimuksilla, että niitä voi käyttää sekä tutkimus- että tuotekehitystarkoituksiin, mutta niitä ei voi toistaa suurelle yleisölle sellaisinaan.
– Tällä hetkellä aineisto kertyy tietokantaan, jonka kustannusrakenne sattuu olemaan sellainen, että aineiston kertyminen ja tallennus ei maksa kovin paljon, mutta sen kopiointi omaan käyttöön maksaa jonkin verran.
– Lisäksi mahdolliset poistopyynnöt on helpompi hallinnoida, jos aineisto on vain yhdessä paikassa. Kokemuksen perusteella ihmiset saattavat tulla katumapäälle muutaman päivän tai viikon sisällä siitä, kun lahjoitus on tehty, mutta harvoin sen jälkeen.
– Nämä yhdessä tekevät sen, että järkevin ajankohta, milloin aineisto kannattaa tarjota muiden käyttöön on vähän sen jälkeen, kun keräyskampanja on päättynyt ja aineisto on siirretty pysyvästi Kielipankkiin.
– YLEn kampanja on suunniteltu tämän vuoden loppuun suomen kielen osalta. Tavoite on 10 000 tuntia ja tarkoitus on kerätä aineisto, missä sukupuoli-, ikäryhmä- ja murrejakauma on riittävän tasapainoinen. Tämä otetaan huomioon, kun päätetään voidaanko kampanja lopettaa vuodenvaihteessa.
– Näköpiirissä on, että suomenruotsin keräyskampanja alkaisi vasta syksyllä ja jatkuu sen takia vielä ensi vuoden puolella.
– Tarvitaan vähän aikaa aineiston jakelun valmisteluun, joten näillä näkymin yritykset voisivat saada suomen aineiston ensi vuoden toisella vuosineljänneksellä.
– VAKE, joka on rahoittanut sovelluksen, on ainakin aikaisemmin ilmoittanut että sovellus julkaistaan avoimena lähdekoodina, jota voi hyödyntää ja kehittää eteenpäin.
Kielipankki Live -tapahtumien verkkosivu