Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tamás Grósz kertoo meille puheteknologiaan liittyvästä tutkimuksestaan.
Nimeni on Tamás Grósz, ja työskentelen akatemiatutkijana Aalto-yliopiston informaatio- ja tietoliikennetekniikan laitoksen puheentunnistusryhmässä.
Väitöskirjatyöni aikana keskityin tutkimuksessani puheteknologiaan, erityisesti uusien syväoppimispohjaisten ratkaisujen kehittämiseen automaattista puheentunnistusta (ASR) varten. Vaikka akustinen mallintaminen olikin pääasiallinen kiinnostuksen kohteeni, olin aktiivinen myös muilla alueilla. Minua kiinnosti erityisesti paralingvistiikka, ja työskentelin erilaisten siihen liittyvien tehtävien parissa. Osallistuin säännöllisesti Interspeech ComParE -haasteisiin ja menestyin niissä parhaiten useita kertoja vuosien varrella. Kenties merkittävin järjestelmistämme on se, joka arvioi automaattisesti Parkinsonin tautia sairastavien potilaiden tilaa. Haastekilpailujen lisäksi olin mukana myös hankkeessa, jossa kehitettiin puhepohjaista ratkaisua lievän kognitiivisen heikentymisen varhaiseen havaitsemiseen. Opintojeni viimeisinä vuosina keskityin hiljaisen puheen käyttöliittymiin. Pääsin työskentelemään huipputason prototyyppien parissa ja kehittämään uusia järjestelmiä, jotka pystyivät tuottamaan puhetta ultraäänellä kuvatuista kielenliikevideoista.
Väitökseni jälkeen liityin Mikko Kurimon tutkimusryhmään post doc -tutkijaksi, jossa minulla oli mahdollisuus työskennellä muiden aiheiden, kuten kielen mallintamisen ja tekoälyn selitettävyyden, parissa. Aluksi työstin koneoppimispohjaisia kielimalleja agglutinatiivisille kielille, kuten unkarille ja suomelle. Kun työskentelin erilaisten mallien parissa, huomasin kurssioppimisen (engl. curriculum learning) merkityksen kielimallin koulutuksessa. Tästä eräänlaisen oheishankkeena olen alkanut tutkia erilaisia arviointitapoja harjoitusnäytteiden vaikeustason määrittämiseen sekä koota uusia kurssisuunnitelmia tekoälymallien kouluttamiseen.
Samoihin aikoihin työskennellessäni hankkeissa, kuten Teflon, AASIS ja Kielibuusti, opin lisää
automaattisesta lasten puheen tunnistuksesta, puheen arvioinnista ja työkaluista, jotka voivat auttaa kielenoppijoita. Parhaat mallimme on onnistuneesti integroitu mobiilisovellukseen, joka voi auttaa maahanmuuttajia suomen kielen oppimisessa.
Vuonna 2022 kehitimme järjestelmän, joka pystyy tunnistamaan erilaisia änkytyksen muotoja (esim. sanan/lausekkeen toistoa, pidentymistä, äänteiden toistoa), ja voitimme sillä INTERSPEECH 2022 Stefan Steidl Computational Paralinguistics Award -palkinnon. Myöhemmin tutkimme, miten puhujan tunnetila voidaan tunnistaa ei-verbaalisista ääni-ilmaisuista (kuten naurusta, itkusta, huokauksesta ja huudosta). Järjestelmämme saavutti molemmissa haastetehtävissä ensimmäisen sijan ACMMM CompParE -kilpailussa. Sittemmin olen työskennellyt myös multimodaalisten ratkaisujen parissa tunteiden ja huumorin tunnistamiseksi.
Nykyinen työni keskittyy pääasiassa itseohjautuvien perusmallien kouluttamiseen ja niiden ymmärtämiseen osana Extreme-scale LUMI– ja LAREINA-hankkeita. Selitettävä tekoäly (XAI) ja mallitulkinta ovat olleet pitkäaikaisia kiinnostuksen kohteitani, ja näiden uusien mallien ja laskennallisten resurssien myötä minulle tarjoutui mahdollisuus tutkia uusia tekniikoita. Viime aikoina olen kehittänyt menetelmiä siihen, kuinka suurten perusmallien sisältä voidaan löytää merkityksellisiä aliavaruuksia ja tutkia mallien valmistavan koulutuksen aikana löytämiä käsitteitä sekä ymmärtää hienosäätöprosessin aiheuttamia muutoksia. Näiden tekniikoiden avulla olemme pystyneet ymmärtämään mallejamme paremmin ja tämä on vienyt meitä eteenpäin uusien, parempien koulutusalgoritmien suunnittelussa.
Koska nykyaikaiset puheentunnistimet vaativat huomattavan määrän dataa, etusijalle nousi tähän soveltuvien korpusten kokoaminen ja annotoiminen. Vuonna 2020 liityin työryhmään, joka koosti Lahjoita puhetta -aineistot (puhelahjat). Tämä korpus, jossa on noin 3200 tuntia lahjoitettua puhetta, mahdollisti useita muita hankkeita, kuten FinW2V2-hankkeemme LUMIssa. Puhelahjat-aineiston ja Aallon eduskunnan istunnoista 2008-2020 kokoaman puheentunnistuskorpuksen avulla olemme vuosien varrella kehittäneet useita ASR-järjestelmiä suomen kielelle.
Tällä hetkellä olen mukana myös LAREINA-hankkeessa, jossa rakennetaan suuria puheperusmalleja ja tuodaan niitä myös yrityskumppaneiden käyttöön.
Getman, Y., Grósz, T., Hiovain-Asikainen, K. & Kurimo, M. (2024), Exploring adaptation techniques of large speech foundation models for low-resource ASR: a case study on northern Sámi, in Proc. of Interspeech. DOI: 10.21437/Interspeech.2024-479
Karakasidis, G., Kurimo, M., Bell, P. & Grósz, T. (2024), Comparison and analysis of new curriculum criteria for end-to-end ASR, Speech Communication p. 103113. DOI: 10.1016/j.specom.2024.103113
Moisio, A., Porjazovski, D., Rouhe, A., Getman, Y., Virkkunen, A., AlGhezi, R., Lennes, M., Grósz, T., Linden, K. & Kurimo, M. (2023), Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks, Language Resources and Evaluation 57(3), 1295–1327. DOI: 10.1007/s10579-022-09606-3
Phan, N., von Zansen, A., Kautonen, M., Grósz, T. & Kurimo, M. (2024), CaptainA a self-study mobile app for practising speaking, in Proc. of Interspeech. https://www.isca-archive.org/interspeech_2024/phan24b_interspeech.pdf
Virkkunen, A., Sarvas, M., Huang, G., Grósz, T. & Kurimo, M. (2024), Investigating the clusters discovered by pre-trained AV-Hubert, in Proc. of IEEE ICASSP 2024, pp. 11196–11200. DOI: 10.1109/icassp48485.2024.10447434
Getman, Y., Phan, N., Al-Ghezi, R., Voskoboinik, E., Singh, M., Grósz, T., Kurimo, M., Salvi, G., Svendsen, T., Strömbergsson, S. et al. (2023), Developing an AI-assisted low-resource spoken language learning app for children, in IEEE Access. DOI: 10.1109/access.2023.3304274
Grósz, T., Getman, Y., Al-Ghezi, R., Rouhe, A. & Kurimo, M. (2023), Investigating wav2vec2 context representations and the effects of fine-tuning, a case-study of a Finnish model, in Proc. of Interspeech. DOI: 10.21437/interspeech.2023-837
Grósz, T., Virkkunen, A., Porjazovski, D. & Kurimo, M. (2023), Discovering relevant sub-spaces of Bert, wav2vec 2.0, Electra and ViT embeddings for humor and mimicked emotion recognition with integrated gradients, in Proc. of the 4th Multimodal Sentiment Analysis Challenge and Workshop, pp. 27–34. DOI: 10.1145/3606039.3613102
Porjazovski, D., Getman, Y., Grósz, T. & Kurimo, M. (2023), Advancing audio emotion and intent recognition with large pre-trained models and Bayesian inference, in Proc. of the 31st ACM International Conference on Multimedia, pp. 9477–9481. DOI: 10.1145/3581783.3612848
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.