Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Katri Hiovain-Asikainen kertoo saamen kielten puhetta ja puhesynteesiä koskevasta tutkimuksestaan.
Olen Katri Hiovain-Asikainen ja työskentelen neljättä vuotta puheteknologina Divvun-ryhmässä Norjan arktisessa yliopistossa. Ryhmämme kehittää kieli- ja puheteknologiasovelluksia erityisesti saamelaiskielille, mutta myös muille vähemmistökielille. Vastaan työssäni puheteknologiaprojektien suunnittelusta ja toteutuksesta, missä olennaista on myös erilaisten ääniaineistojen kerääminen sekä puhekorpusten rakentaminen eri saamelaiskielille.
Ryhmämme on julkaissut tänä vuonna maailman ensimmäisen luulajansaamen puhesynteesin sekä nykyaikaistanut pohjoissaamen puhesynteesin. Vastikään lokakuun lopussa julkaisimme myös maailman ensimmäisen eteläsaamen puhesynteesin. Kaikki kehittämämme ohjelmat ja työkalut ovat ilmaisia ja helposti kaikkien saatavilla.
Taustani on kielitieteessä ja fonetiikassa, ja väittelin syksyllä 2023 Helsingin yliopistosta tohtoriksi. Väitöskirjani aiheena oli valtakielten vaikutus puhuttuun pohjoissaamen kieleen. Tutkimuksen tavoitteena oli selvittää prosodisten piirteiden, kuten kvantiteetin ja intonaation variaatioita pohjoissaamen alueellisissa kielimuodoissa, kun kontaktit valtakieliin (suomi ja norja) ovat hyvin tiiviit ja moniulotteiset.
Tällä hetkellä keskityn puhesynteesin ja automaattisen puheentunnistuksen kehittämiseen kolmelle saamelaiskielelle: pohjois-, luulajan ja eteläsaamelle, jotka ovat virallisia kieliä Norjassa. Näille on em. kielten puhujayhteisöissä erittäin suuri tarve, sillä saamen kirjakielet ovat melko uusia, eivätkä kaikki saamenpuhujat ole päässeet oppimaan kirjoitettua kieltä koulussa samalla tavalla kuin enemmistökielten kohdalla. Puheteknologia mahdollistaa vähemmistökielten suullisen käytön uusissa konteksteissa: esim. koulussa lukemisen apuna, ääntämisen opiskelussa, helppokäyttötoimintona lukihäiriöisille tai näkörajoitteisille sekä yleisesti vaikka uutisten kuuntelemiseen lukemisen sijaan. Myös äänikirjat ja muut puhutun kielen sisällöt yleistyvät kaiken aikaa, mikä mahdollistaa kirjojen kuuntelun samalla kun tekee käsillä jotakin muuta. Älykoti ja älykaiutin puhuvat tänä päivänä luulajansaamea kodissa, jossa perheen kotikielenä on luulajansaame. Tämä vahvistaa kielen asemaa ja tukee saamelaiskielten elvytystä uudella tasolla.
Puheentunnistin puolestaan mahdollistaa erilaiset puhekäyttöliittymät esimerkiksi autossa ja kotona, sekä luonnollisesti älylaitteilla. Pian on mahdollista sanella tekstejä saamelaiskielillä sekä esim. luoda automaattisia litteraatteja vanhoille arkistoäänitteille, jotta tutkijat pääsevät hyödyntämään niitä paremmin. Mahdollisuudet ovat rajattomat.
Varsinainen tutkimukseni liittyy vahvasti puheteknologiaan, ja olen tällä hetkellä vierailevana tutkijana Helsingin yliopiston Fonetiikan ja puhesynteesin tutkimusryhmässä. Yhteistyössä ryhmän muiden tutkijoiden kanssa olemme tutkineet mm. automaattista murteentunnistusta, jossa tavoitteena on tunnistaa puhujan murre automaattisesti mm. erilaisten prosodisten piirteiden perusteella. Lisäksi olen kiinnostunut erilaisista puhesynteesin arviointimenetelmistä ja esimerkiksi siitä, kuinka hyvin puhesynteesi oppii tuottamaan monimutkaisia ja harvinaisia prosodisia piirteitä, kuten kvantiteettia.
Valmistelemme Divvun-ryhmässä tällä hetkellä erilaisia saamen puheaineistoja julkaistavaksi Kielipankin kautta. Saamenkielisiä äänitteitä löytyy kyllä eri maiden arkistoista, mutta ne ovat suhteellisen hajanaisia, tai niitä ei ole välttämättä käsitelty julkaistavaksi, eikä niihin esimerkiksi aina löydy transkriptioita. Koemme, että olemassa olevien aineistojen käsittely saavutettavampaan muotoon auttaisi monia tutkijoita sekä puheteknologioiden kehittäjiä ilman, että tarvitsisi tehdä aina uusia äänitteitä.
Olen myös itse saanut tutkimuskäyttöön yhden pohjoissaamen puhekorpuksen (Giellagas), ja se on ollut monipuolisuutensa vuoksi suureksi hyödyksi etenkin automaattisen murteentunnistuksen tutkimisessa. Tavoitteenamme Divvunissa on lisätä vastaavia aineistoja saataville mahdollisimman pian. Alkuperäis- ja vähemmistökielten kohdalla kuitenkin aineistojen julkaisuun liittyy paljon huolellisuutta vaativia seikkoja, joita työssämme kunnioitamme.
Hiovain-Asikainen, K. (2023). Prosodic change and majority language influence in spoken North Sámi varieties. Helsingin yliopisto, Humanistinen tiedekunta, Digitaalisten ihmistieteiden osasto. Helsingin yliopisto. http://urn.fi/URN:ISBN:978-951-51-9406-0
Kakouros, S., & Hiovain-Asikainen, K. (2023). North Sámi dialect identification with self-supervised speech models. arXiv Preprint arXiv:2305.11864. In Proceedings of the 24th INTERSPEECH Conference (pp. 5306–5310). https://doi.org/10.48550/arXiv.2305.11864
Pirinen, F., Moshagen, S., & Hiovain-Asikainen, K. (2023, May). GiellaLT—a stable infrastructure for Nordic minority languages and beyond. In Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa) (pp. 643-649). https://aclanthology.org/2023.nodalida-1.63/
Hiovain-Asikainen, K., & de la Rosa, J. (2023). Developing TTS and ASR for Lule and North Sámi languages. In Proceedings of the 2nd Annual Meeting of the Special Interest Group on Under-resourced Languages (SIGUL). http://dx.doi.org/10.21437/SIGUL.2023-11
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.