16.5.2022

Kuukauden tutkija: Mika Hämäläinen

Kuva: Khalid Alnajjar

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mika Hämäläinen kertoo tutkimuksestaan laskennallisen luovuuden ja uhanalaisten kielten kieliteknologian parissa.

Kuka olet?

Olen Mika Hämäläinen ja työskentelen tutkijatohtorina Helsingin yliopistossa Digitaalisten ihmistieteiden osastolla. Väitöskirjani kirjoitin laskennallisesta luovuudesta vuonna 2020 otsikolla Generating Creative Language: Theories, Practice and Evaluation. Otsikko kuvaa hyvin tutkimusintressejäni, sillä en ole kiinnostunut ainoastaan kieliteknologisien mallien teknisestä toteutuksesta vaan myös niiden suhteesta teorioihin ja todellisen maailman ilmiöihin. Mielestäni on erittäin tärkeää julkaista tutkimustuloksia mahdollisimman helppokäyttöisinä työkaluina ja avoimena lähdekoodina.

Mikä on tutkimuksesi aihe?

Olen tehnyt tutkimusta laskennallisen luovuuden, uhanalaisten kielten kieliteknologian sekä ei-standardin kielen kuten murteiden ja historiallisten kielimuotojen parissa. Laskennallinen luovuus on tekoälyn näkökulmasta haastava tutkimusaihe, sillä tarkoituksena on kehittää laskennallisia malleja, jotka kykenevät tuottamaan uusia luovia tekstejä kuten runoja (Hämäläinen & Alnajjar, 2019) tai huumoria (Alnajjar & Hämäläinen, 2021). Tärkeää ei ole ainoastaan se, että kone pystyy syytämään ulos uutta tekstiä, vaan koneen tulisi myös osata tulkita tuotoksiaan jollain järkevällä tasolla. Olemmekin kehittäneet työkaluja myös lopputulosten analysointiin, kuten suomenkielistä runoutta analysoivan FinMeter-kirjaston. Kirjaston avulla voi muun muassa analysoida runomittaa sekä tulkita metaforia.

Uhanalaisten kielten kieliteknologia on erittäin haastavaa, sillä moderni kieliteknologia nojaa yhä enemmän massiivisiin tekstiaineistoihin, jollaisia ei ole helposti saatavilla. Uhanalaisten kielten aineistot sisältävät usein myös paljon variaatiota, sillä tällaisten kielten kohdalla ei välttämättä ole harjoitettu kielenhuoltoa ja vaalittu oikeakielisyyttä samalla tavalla kuin vaikkapa suomen osalta. Kielellinen moninaisuus on koneoppimisen näkökulmasta hankalaa, sillä mitä enemmän variaatiota korpus sisältää, sitä suurempi sen tulisi olla kooltaan, jotta koneoppimismallit kykenevät variaatiosta selviytymään. Uhanalaisten kielten kieliteknologia vaatii siis kekseliäisyyttä. Olemme onnistuneet analysoimaan uhanalaisten kielten morfologiaa (Hämäläinen et al., 2021a), morfosyntaksia (Hämäläinen & Wiechetek, 2020) ja kognaatteja (Hämäläinen & Rueter, 2019) tuottamalla koneoppimismalleille synteettistä dataa. Uhanalaisten kielten dataa voi prosessoida helposti kehittämäni UralicNLP-kirjaston avulla.

Elinvoimaistenkin kielten kohdalla runsas variaatio tuottaa kieliteknologeille päänvaivaa. Olen tehnyt tutkimusta historiallisen englannin kielimuotojen normalisoinnin parissa (Hämäläinen et al., 2018). Normalisaatio tarkoittaa sitä, että tietokone osaa muuntaa historiallisessa tekstissä käytetyn ortografian nykykielen mukaiseksi. Englannin kielen normalisointityökalu Natas on saatavilla GitHubista. Sittemmin olen tehnyt suomen (Partanen et al., 2019) ja suomenruotsin murteiden (Hämäläinen et al., 2020a) normalisointia sekä suomen murteiden tuottamista (Hämäläinen et al., 2020b) kirjakielen pohjalta. Nämä tutkimustulokset on julkaistu Murre-kirjastossa. Viimeisin tutkimuskohteeni on ollut suomen murteiden automaattinen tunnistaminen äänen ja tekstin pohjalta (Hämäläinen et al., 2021b)

Miten Kielipankki liittyy tutkimukseesi?

Suomen kielen näytteitä -korpus on ollut ehdottoman tärkeä murremallien tuottamisessa. Ilman kyseistä korpusta en olisi yksinkertaisesti voinut toteuttaa suomen kielen murteita käsittelevää tutkimustani.

Kielipankin aineistoista on ollut hyötyä myös laskennallisen luovuuden tutkimisessa. Olen käyttänyt esimerkiksi suomenkielistä FinnWordNetiä runogeneraattorissani (Hämäläinen, 2018) ja Opusparcusta luovaa dialogia tuottavassa sovelluksessa (Alnajjar & Hämäläinen, 2019).

Julkaisuja

Alnajjar, K., & Hämäläinen, M. (2021). When a Computer Cracks a Joke: Automated Generation of Humorous Headlines. In Proceedings of the 12th International Conference on Computational Creativity (ICCC 2021) (pp. 292-299). Association for Computational Creativity.

Hämäläinen, M., Alnajjar, K., Partanen, N., & Rueter, J. (2021b). Finnish Dialect Identification: The Effect of Audio and Text. In M-F. Moens, X. Huang, L. Specia, & S. Wen-tau Yih (Eds.), Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 8777-8783). The Association for Computational Linguistics.

Hämäläinen, M. (2020) Generating Creative Language: Theories, Practice and Evaluation. Helsingin yliopisto. Saatavilla: http://urn.fi/URN:ISBN:978-951-51-6707-1

Alnajjar, K., & Hämäläinen, M. (2019). A Creative Dialog Generator for Fallout 4. In Proceedings of the 14th International Conference on the Foundations of Digital Games [48] ACM. https://doi.org/10.1145/3337722.3341824

Hämäläinen, M., & Alnajjar, K. (2019). Let’s FACE it: Finnish Poetry Generation with Aesthetics and Framing. In K. V. Deemter, C. Lin, & H. Takamura (Eds.), 12th International Conference on Natural Language Generation: Proceedings of the Conference (pp. 290-300). The Association for Computational Linguistics. https://doi.org/10.18653/v1/w19-8637

Hämäläinen, M., Partanen, N., Rueter, J., & Alnajjar, K. (2021a). Neural Morphology Dataset and Models for Multiple Languages, from the Large to the Endangered. In S. Dobnik, & L. Øvrelid (Eds.), Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa) (pp. 166-177). (NEALT Proceedings Series; No. 45), (Linköping Electronic Conference Proceedings; No. 178). Linköping University Electronic Press.

Hämäläinen, M., & Rueter, J. (2019). Finding Sami Cognates with a Character-Based NMT Approach. In A. Arppe, J. Good, M. Hulden, J. Lachler, A. Palmer, L. Schwartz, & M. Silfverberg (Eds.), Proceedings of the 3rd Workshop on Computational Methods in the Study of Endangered Languages: (Volume 1) Papers (pp. 39-45). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-6006.pdf

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2020a). Normalization of Different Swedish Dialects Spoken in Finland. In GeoHumanities’20: Proceedings of the 4th ACM SIGSPATIAL Workshop on Geospatial Humanities (pp. 24–27). ACM. https://doi.org/10.1145/3423337.3429435

Hämäläinen, M., Partanen, N., Alnajjar, K., Rueter, J., & Poibeau, T. (2020b). Automatic Dialect Adaptation in Finnish and its Effect on Perceived Creativity. In F. A. Cardoso, P. Machado, T. Veale, & J. M. Cunha (Eds.), Proceedings of the 11th International Conference on Computational Creativity (ICCC’20) (pp. 204-211). Association for Computational Creativity.

Hämäläinen, M., & Wiechetek, L. (2020). Morphological Disambiguation of South Sámi with FSTs and Neural Networks. In D. Beermann, L. Besacier, S. Sakti, & C. Soria (Eds.), Proceedings of the 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020) (pp. 36-40). European Language Resources Association (ELRA).

Hämäläinen, M., Säily, T., Rueter, J., Tiedemann, J., & Mäkelä, E. (2018). Normalizing early English letters to Present-day English spelling. In B. Alex, S. Degaetano-Ortlieb, A. Feldman, A. Kazantseva, N. Reiter, & S. Szpakowicz (Eds.), Proceedings of the 2nd Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (pp. 87-96). (ACL Anthology; No. W18-45). The Association for Computational Linguistics. http://aclweb.org/anthology/W18-4510

Hämäläinen, M. (2018). Harnessing NLG to Create Finnish Poetry Automatically. In F. Pachet, A. Jordanous, & C. León (Eds.), Proceedings of the Ninth International Conference on Computational Creativity (pp. 9-15). Association for Computational Creativity (ACC)

Partanen, N., Hämäläinen, M., & Alnajjar, K. (2019). Dialect Text Normalization to Normative Standard Finnish. In W. Xu, A. Ritter, T. Baldwin, & A. Rahimi (Eds.), The Fifth Workshop on Noisy User-generated Text (W-NUT 2019): Proceedings of the Workshop (pp. 141–146). The Association for Computational Linguistics.

Lisätietoa työkaluista ja Kielipankissa olevista aineistoista

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.