Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Veronika Laippala kertoo suuriin kieliaineistoihin ja laskennallisiin menetelmiin liittyvästä tutkimuksestaan.
Olen Veronika Laippala ja toimin digitaalisen kielentutkimuksen professorina Turun yliopiston kieli- ja käännöstieteiden laitoksella ja TurkuNLP-tutkimusryhmässä.
Suurin osa tutkimuksestani liittyy tavalla tai toisella kielenkäyttöön: suuriin, useimmiten internetistä koostettuihin aineistoihin ja laskennallisiin menetelmiin. Lisäksi olen ollut mukana kehittämässä suomenkielistä kieliteknologiaa, kuten Turku Dependency Treebank -puupankkia ja Turku NER -nimientunnistusjärjestelmää.
Tällä hetkellä meillä on käynnissä useita hankkeita, joissa työstetään internetpohjaisia kieliaineistoja tarkastelemalla niissä käytettäviä tekstilajeja ja kehittämällä koneoppimismenetelmiä, jotka tunnistavat tekstilajeja automaattisesti. Tällaisista menetelmistä ja välineistä hyötyisivät sekä internetin käyttäjät ylipäätään että internetpohjaisia kieliaineistoja käyttävät tutkijat.
Kielipankin laaja aineistovalikoima antaa mahdollisuuksia vaikka mihin! Eniten olen luultavasti käyttänyt Suomi 24-aineistoa, joka on laajuudessaan ainutlaatuinen. Lisäksi puupankkimme pohjalta kehitettyä syntaksijäsennintä käytetään Kielipankin aineistojen jäsentämiseen. Ja tietysti opetan kursseillani Korp-käyttöliittymän käyttöä.
Liina Repo, Valtteri Skantsi, Samuel Rönnqvist, Saara Hellström, Miika Oinonen, Anna Salmela, Douglas Biber, Jesse Egbert, Sampo Pyysalo & Veronika Laippala (2021). Beyond the English Web: Zero-Shot Cross-Lingual and Lightweight Monolingual Classification of Registers. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop, pp. 183–191. Saatavilla: https://aclanthology.org/2021.eacl-srw.24.
Veronika Laippala, Jesse Egbert, Douglas Biber & Aki-Juhani Kyröläinen (2021). Exploring the role of lexis and grammar for the stable identification of register in an unrestricted corpus of web documents. Language Resources and Evaluation, Vol. 55, pp. 757–788. DOI: 10.1007/s10579-020-09519-z.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.