Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Rosa González Hautamäki kertoo meille tutkimuksistaan, jotka liittyvät puhujakohtaiseen vaihteluun ja äänimuuntelun vaikutuksiin. Yhteistyössä Itä-Suomen yliopiston Laskennallisen puheen tutkimusryhmän kanssa koottu AVOID-korpus on arvokas aineisto muunnellun puheäänen tutkimiseen.
Olen Rosa González Hautamäki, tutkijatohtori logopedian tutkimusyksikössä Oulun yliopistossa ja vieraileva tutkija Itä-Suomen yliopiston humanistisella osastolla. Väittelin tohtoriksi tietojenkäsittelytieteestä ja teen jatkuvaa yhteistyötä Itä-Suomen yliopiston tietojenkäsittelytieteen laitoksen ja National University of Singapore (NUS) Human Language Technology Laboratoryn kanssa.
Tutkimukseni keskittyy puhujan tunnistamisen yhteydessä ilmenevään puhujakohtaiseen vaihteluun. Puhe on kompleksinen signaali, joka vaihtelee useiden tekijöiden, kuten iän, terveydentilan ja tunnetilan mukaan. On siis odotettavissa, ettei puhuja lausu samaa ilmausta täsmälleen samalla tavalla useita kertoja. Jatko-opintojeni aikana tutkin äänimuuntelun vaikutuksia äänivertailuihin, joita suorittivat kuuntelijat tai automaattiset järjestelmät. Keskityin alkuperäisessä tutkimuksessani matkimiseen ja äänen naamioimiseen, sillä on otettava huomioon, etteivät kaikki puhujat välttämättä ole yhteistyöhaluisia ollessaan vuorovaikutuksessa puhujantunnistusjärjestelmien kanssa. Tutkimuksemme osoitti, että yksinkertaisetkin tekniikat oman äänen naamioimiseksi voivat heikentää automaattisten järjestelmien suorituskykyä ja samalla vaikeuttaa puhujavertailun tekemistä myös kuuntelijoille.
Sittemmin puhujakohtaista vaihtelua koskevissa tutkimuksissani olen keskittynyt tunnistamaan tekijöitä, jotka vaikuttavat puhujan todennuksen onnistumiseen, sisältäen niin tahalliset kuin tahattomatkin äänenmuunnokset. Nämä havainnot ovat tärkeitä myös silloin, kun analysoidaan puhetta muissa puheteknologisissa tarkoituksissa, kuten puhehuijaushyökkäysten tai puheen kuulonvaraisen havaitsemisen tutkimuksessa. Kun tutkitaan automaattisten järjestelmien tekemien päätöksiin vaikuttavia tekijöitä, voidaan parantaa järjestelmien luotettavuutta.
Tällä hetkellä käytän puheanalyysiin liittyvässä tutkimuksessani esimerkiksi koneoppimismalleja, joiden aineisto on peräisin arvioinneista, joita on käytetty tunnistamaan lasten kielellisiä kehityshäiriöitä. On hienoa saada olla mukana motivoituneessa tutkijaryhmässä, joka tutkii puhetta sekä keinoja lasten puheenkehityksen parissa työskentelevien tukemiseen.
Väitöstutkimukseni aikana tein yhteistyötä Itä-Suomen yliopiston Laskennallisen puheen tutkimusryhmän kanssa kerätäkseni aineiston, jolla voisi tutkia äänen naamioimista. Kielipankki antoi meille erittäin tärkeää tukea tarjoamalla tietoja, joita tarvittiin aineiston keräämiseen ja valmisteluun sekä lopuksi sen julkaisemiseen kielivarana. Tuloksena syntynyt aineisto, nimeltään Muunnellun puheen korpus (Corpus of Age-related Voice Disguise, AVOID), sisältää äänitallenteita suomenkielisten puhujien puheesta sekä heidän omalla äänellään että heidän yrittäessään naamioida ikäänsä.
Eräässä tutkimuksessa käytimme AVOID-korpusta analysoidaksemme tiettyjen akustisten piirteiden muutosten vaikutusta automaattisiin puhujantunnistusjärjestelmiin ja havaitsimme, että ero pitkän aikavälin perustaajuudessa (F0) haittasi puhujan tunnistamista eniten myös silloin, kun automaattisessa järjestelmässä hyödynnettiin äänen spektraalisia piirteitä.
Toisessa tutkimuksessa, jossa käytettiin AVOID-korpusta, arvioimme ikään liittyvien stereotypioiden toimivuutta äänen naamioimisstrategiana puhujia vertailtaessa. Kuuntelijat arvioivat sekä puhujan todellista ikää että hänen esittämäänsä ikää, kun hän yritti kuulostaa lapselta tai vanhukselta. Tulokset osoittivat, että kuuntelijoiden tekemät ikäarviot naispuolisten puhujien esittämistä äänistä osuivat lähemmäs puhujien tavoittelemaa kohdeikää, kun taas miespuolisista puhujista tehdyt ikäarviot vastasivat puhujien tavoitteita vain vanhusäänien osalta.
Kaiken kaikkiaan AVOID-korpus on arvokas aineisto ihmisten itse muunnellun puheäänen tutkimukseen. Toivomme, että jatkotutkimusten myötä olisi mahdollista rakentaa järjestelmiä, jotka ovat kyvyiltään entistä vakaampia naamioituja ääniä kohtaan.
González Hautamäki, R., Hautamäki, V., and Kinnunen, T. (2019). ”On Limits of Automatic Speaker Verification: Explaining Degraded Recognizer Score Through Acoustic Changes Resulting from Voice Disguise”, The Journal of the Acoustic Society of America 146, 693. https://doi.org/10.1121/1.5119240
González Hautamäki,R., Sahidullah, Md., Hautamäki, V., and Kinnunen,T. (2017). ”Acoustical and perceptual study of voice disguise by age modification in speaker verification”, Speech Communication, Volume 95, Pages 1-15, https://doi.org/10.1016/j.specom.2017.10.002
González Hautamäki, R., Sahidullah, Md., Kinnunen, T., and Hautamäki, V (2016). ”Age-Related Voice Disguise and its Impact in Speaker Verification Accuracy”, Odyssey: The Speaker and Language Recognition Workshop, Bilbao, Spain, pages 277-282, http://dx.doi.org/10.21437/Odyssey.2016-40
González Hautamäki, R., Kanervisto, A., Hautamäki, V., and Kinnunen, T. (2018). ”Perceptual Evaluation of the Effectiveness of Voice Disguise by Age Modification”, Odyssey: The Speaker and Language Recognition Workshop, Les Sables d’Olonne, France, pages 320-326, http://dx.doi.org/10.21437/Odyssey.2018-45
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.