Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Aku Rouhe kertoo meille puheentunnistukseen liittyvästä tutkimuksestaan. Nykyisessä työssään hän muun muassa jatkokouluttaa suomeen ja pohjoismaisiin kieliin erikoistuneita, avoimesti saatavilla olevia suuria kielimalleja, joita on luotu onnistuneen tutkimus–yritys-yhteistyön myötä.
Olen Aku Rouhe. Väittelin tämän vuoden helmikuussa Aalto-yliopiston puheentunnistuksen tutkimusryhmästä. Väitökirjatyön jälkeen siirryin Silo AI:lle (nykyisin AMD:n omistuksessa), missä työskentelen suurten kielimallien jatkokoulutuksen kanssa, eli siirryin puheesta tekstin pariin. Kiinnostus kieleen värittää myös vapaa-aikaani, jota käytän luovaan kirjoittamiseen.
Väitöskirjani aiheena oli viime vuosina paljon huomiota saaneiden ns. kokonaismallien ja perinteisempien monen mallin yhdistelmien vertaileminen. Varsinkin puheentunnistuksessa sekä tutkimus että käytännön sovellukset ovat siirtyneet laajalti kokonaismalleihin, mutta työni osoitti, että monen mallin yhdistelmät ovat yhä varteenotettavia ratkaisuja esimerkiksi tunnistustarkkuuden osalta. Kokonaismallien keskeisin etu onkin todennäköisesti niiden yksinkertaisuus.
Kokonaismallit vaativat usein valtavia opetusaineistoja. Siksi oli tärkeää sivuta myös kokonaismallien soveltamista aliresursoiduilla kielillä.
Tällä hetkellä työni Silolla liittyy suurten kielimallien jatkokouluttamiseen, ja sovellan esimerkiksi suomeen ja pohjoismaisiin kieliin erikoistuneita Poro ja Viking -malleja, jotka on luotu yhteistyössä Silon ja TurkuNLP-ryhmän välillä.
Kokonaismallit janoavat dataa, joten suuret aineistot olivat tarpeen. Olin mukana kokoamassa sekä eduskunnan täysistunnoista kerättyä Aalto Finnish Parliament ASR Corpus 2008–2020 puheaineistoa että Lahjoita puhetta -projektissa, jossa kansalaisten lahjoituksista syntyi Puhelahjat-korpus. Pääsin yhdistämään nämä molemmat suuret puheaineistot artikkelissa, joka julkaistiin väitöskirjani loppumetreillä vaikuttaessani LAREINA-projektissa. Nykyään suomen puheentunnistusresurssit ovat kunnioitettavat näin harvan puhumalle kielelle.
Rouhe, A., Grósz, T., Kurimo, M. 2024. Principled Comparisons for End-to-End Speech Recognition: Attention vs Hybrid at the 1000-Hour Scale. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 623-638, 2024. doi: 0.1109/taslp.2023.3336517
Virkkunen, A., Rouhe, A., Phan, N. et al. 2023. Finnish parliament ASR corpus. Lang Resources & Evaluation 57, 1645–1670 (2023). doi: 10.1007/s10579-023-09650-7
Moisio, A., Porjazovski, D., Rouhe, A. et al. 2023. Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Lang Resources & Evaluation 57, 1295–1327 (2023). doi: 10.1007/s10579-022-09606-3
Rouhe, A., Virkkunen, A., Leinonen, J., Kurimo, M. 2022. Low Resource Comparison of Attention-based and Hybrid ASR Exploiting wav2vec 2.0. Proc. Interspeech 2022, 3543–3547,
doi: 10.21437/Interspeech.2022-11318
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.