18.6.2024

Kuukauden tutkija: Krister Lindén

Kuva: Juhani Jokinen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Kielipankin johtaja Krister Lindén kuvailee, miten ihmistieteiden tutkijat voivat hyödyntää tekoälyä aineistopohjaisessa tutkimuksessa.

Kuka olet?

Olen Krister Lindén. Toimin Helsingin yliopistossa kieliteknologian tutkimusjohtajana digitaalisten ihmistieteiden osastolla sekä Muinaisen Lähi-Idän Imperiumit -huippututkimusyksikön tiimin varajohtajana. Kansallisesti olen tutkimusinfrastruktuurien Kielipankin johtaja, FIN-CLARINin kansallinen koordinaattori ja FIN-CLARIAHin vastuullinen tutkija. EU-tasolla olen ihmistieteiden tutkimusinfrastruktuurin CLARINin kansallisten koordinaattoreiden puheenjohtaja ja CLARINin lakiteknisen komitean (CLIC) jäsen.

Mikä on tutkimuksesi aihe?

Olen aina ollut kiinnostunut kieliteknologiasta ja sen soveltamisesta ja Kielipankin kautta yhä enemmän myös teknologian kehittämisen ja soveltamisen edellytyksistä:

Kuinka voimme aineistoja käyttämällä vastata moninaisiin ihmistieteellisiin tutkimuskysymyksiin?
Mistä saadaan kehitys- ja testiaineistoja, joilla voidaan kehittää ja arvioida aineistojen käsittelymenetelmiä?
Millaisilla ehdoilla aineistoja voidaan välittää muille tutkijoille, jotta he voivat varmistaa, toimivatko menetelmät väitetyllä tavalla?

Riippumaton menetelmien arviointi on tärkeää, jotta kehitys ei pysähtyisi ja jotta on mahdollista löytää eri tilanteisiin parhaiten sopivat menetelmät. Jos halutaan vain alustava arvio ja pienimuotoinen koe riittää, voidaan antaa ChatGPT:lle pari esimerkkiä ja katsoa, miten se selviää tehtävästä. Jos dataa ei ole tarpeeksi tilastollisen menetelmän luotettavaan käyttöön ja tehtävässä vaaditaan menetelmältä erityistä tarkkuutta, voi olla nopeampaa kehittää menetelmät käsin. Toisaalta, jos dataa on riittävästi, sopiva koneoppimismenetelmä on tarjolla ja käsittely-ympäristökin riittävän tehokas, tämä yhdistelmä tarjoaa usein helpoiten toistettavissa olevan kehityspolun.

Kaikki edellä mainitut kehityspolut ovat datalähtöisiä ja niiden toisintaminen vaatii datan jakamista muiden tutkijoiden kanssa. Aiempina vuosina oltiin hyvin innostuneita lähdeaineistojen täysin avoimesta jakelusta. Vaikka tämä on edelleenkin hyvä tavoite, on paljon aineistoja, joita syystä tai toisesta ei voida välittää aivan kaikille. Tutkijayhteisömme on vähitellen onnistunut lainvalmistelijoiden tuella kehittämään juridisen saatavuusehtojen kehikon, joka mahdollistaa akateemisille tutkijoille riittävän avoimen pääsyn aineistojen tutkimuskäyttöä varten ja mahdollistaa myös tulosten todentamisen suhteellisen mutkattomasti. Samalla aineistot kuitenkin pysyvät riittävän pienen piirin saatavilla, jotta henkilötiedot ja aineeton omaisuus pysyvät turvassa.

Uutena kehitystarpeena on luoda menetelmä, jolla ihmistieteiden tutkijat voisivat keskustella Kielipankkiin tallentamiensa aineistojen sisällöstä tekoälyn kanssa.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankki tarjoaa sekä alustan työkalujen kehittämiseen että tilaisuuden osoittaa, miten erilaisia tutkimuslähtöisiä aineistoja voidaan välittää muille tutkijoille turvallisesti ja lain puitteissa.

Viimeaikaisia julkaisuja

Jauhiainen, T., Zampieri, M., Baldwin, T. C., & Linden, K. (2024). Automatic Language Identification in Texts. (Synthesis Lectures on Human Language Technologies). Springer. https://doi.org/10.1007/978-3-031-45822-4

Jauhiainen, T., Piitulainen, J., Axelson, E., Dieckmann, U., Lennes, M., Niemi, J., Rueter, J., & Linden, K. (2024). Investigating Multilinguality in the Plenary Sessions of the Parliament of Finland with Automatic Language Identification. In D. Fišer, M. Eskevich, & D. Bordon (Eds.), Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024): ParlaCLARIN IV Workshop on Creating, Analysing, and Increasing Accessibility of Parliamentary Corpora (pp. 48-56). (International conference on computational linguistics), (LREC proceedings). European Language Resources Association (ELRA). https://researchportal.helsinki.fi/files/312866811/ArtikkeliJulkaistu.pdf

Sahala, A., & Linden, K. (2023). BabyLemmatizer 2.0 – A Neural Pipeline for POS-tagging and Lemmatizing Cuneiform Languages. In A. Anderson, S. Gordin, B. Li, Y. Liu, & M. C. Passarotti (Eds.), Proceedings of the Ancient Language Processing Workshop associated with the 14th International Conference on Recent Advances in Natural Language Processing, RANLP 2023 (pp. 203-212). INCOMA. https://aclanthology.org/2023.alp-1.23

Linden, K., Niemi, J., & Kontino, T. (Eds.) (2023). CLARIN Annual Conference Proceedings 2023. (CLARIN Annual Conference Proceedings). CLARIN ERIC. https://researchportal.helsinki.fi/files/298353929/CE-2023-2328_CLARIN2023_ConferenceProceedings.pdf

Lindén, K., Ruokolainen, T., Hämäläinen, L., & Harviainen, J. T. (2023). Ethically Archiving a Hard-to-Access Massive Research Data Set in the Language Bank of Finland: The Finnish Dark Web Marketplace Corpus (FINDarC). In M. M. Rantanen , S. Westerstrand, O. Sahlgren, & J. Koskinen (Eds.), Proceedings of the Conference on Technology Ethics 2023 – Tethics 2023 (pp. 114-131). (CEUR Workshop Proceedings; Vol. 3582). CEUR-WS.org. https://researchportal.helsinki.fi/files/295005165/FP_10.pdf

Kamocki, P., Linden, K., Puksas, A., & Kelli, A. (2023). EU Data Governance Act: Outlining a Potential Role for CLARIN. In T. Erjavec, & M. Eskevich (Eds.), Selected papers from the CLARIN Annual Conference 2022 (pp. 57-65). (Linköping Electronic Conference Proceedings; No. 198). CLARIN ERIC. https://doi.org/10.3384/ecp198006

Linden, K., Jauhiainen, T., & Hardwick, S. (2023). FinnSentiment: A Finnish Social Media Corpus for Sentiment Polarity Annotation. Language Resources and Evaluation, 57(2), 581-609. https://doi.org/10.1007/s10579-023-09644-5

Axelson, E., Hardwick, S., & Linden, K. (2023). HFST Training Environment and Recent Additions. In A. Hurskainen, K. Koskenniemi, & T. P. (Eds.), Rule-Based Language Technology (pp. 60-69). (NEALT Monograph Series; No. 2[1]). Northern European Association for Language Technology. http://hdl.handle.net/10062/89595

Linkkejä

CLARIN ERIC (Common Language Resources and Technology Infrastructure)
FIN-CLARIN, ihmistieteiden kansallinen tutkimusinfrastruktuuri
FIN-CLARIAH-hanke (2022–)
Muinaisen Lähi-Idän Imperiumit (ANEE) -huippututkimusyksikkö
Digitaalisten ihmistieteiden osasto (Helsingin yliopisto)

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.