Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Koneen säätiön rahoittaman hankkeen Language Documentation meets Language Technology: The Next Step in the Description of Komi tutkija Niko Partanen kertoo tekemästään tutkimuksesta, jossa hän tuottaa kieliresursseja Kielipankkiin.
Olen Niko Partanen, tutkija Koneen säätiön rahoittamassa hankkeessa Language Documentation meets Language Technology: The Next Step in the Description of Komi. Pääsin tutustumaan moniin Suomessa säilytettäviin aineistoihin ainutlaatuisella tavalla työskennellessäni viime vuoden Kotimaisten kielten keskuksessa erityisasiantuntijana, ja tulen varmasti jossain muodossa tulevaisuudessakin jatkamaan työtä arkistoinnin ja digitalisoinnin kysymysten parissa. Suomessa aineistojen saatavuus ja laajuus on erittäin hyvä, mutta avoimia kysymyksiäkin on hyvin paljon, erityisesti modernin verkkojulkaisun käytännöissä ja eri käyttäjäryhmille tarkoituksenmukaisen saatavuuden varmistamisessa. Kuluvan kesän olen vierailevana tutkijana Helsingin yliopistossa.
Tutkin komisyrjäänin murteiden variaatiota ja muutosta eri-ikäisten digitaalisten aineistojen avulla. Tutkimuskohteinani ovat tietyt murteista tunnetut, mutta puutteellisesti kuvatut kiinnostavat piirteet, joita nyt työstän fonologisia ja morfologisia aiheita käsitteleviksi artikkeleiksi.
Komin murteista on kerätty aineistoja jo yli sata vuotta, mikä mahdollistaa pidemmän aikavälin vertailun. Tietysti uhanalaisen kielen materiaaleja ei koskaan ole liikaa, ja näin on tilanne myös komin murteiden suhteen. Tämä on saanut minut tutustumaan erilaisiin aiemmin kerättyihin ja eri muodoissa julkaistuihin materiaaleihin. Olen tässä yhteydessä työskennellyt aktiivisesti esimerkiksi tekstintunnistamisen parissa, mikä on yksi tehokkaimpia keinoja, joilla vanhoja painettuja ja käsinkirjoitettuja tekstejä voidaan saada digitaaliseen muotoon.
Pyrin aktiivisesti kehittämään kieliteknologian hyödyntämistä puheaineistojen tutkimuksessa. Vielä joitain vuosia jatkuva Rogier Bloklandin ja Michael Rießlerin johtama Koneen säätiön rahoittama tutkimusprojektimme Language Documentation meets Language Technology: The Next Step in the Description of Komi keskittyy muun muassa komin morfosyntaktisen analyysin parantamiseen, ja projektimme on säännöllisesti julkaissut artikkeleja erilaisista ratkaisuistamme tämän teknologian hyödyntämisessä. Käytännössä voimme siis ottaa komin murretekstin ja ajaa sen Giellateknon ympäristössä kehitetyn analysaattorin läpi, saaden kohtuullisen hyvän tuloksen jokaiselle sanalle. Ei ole kuitenkaan täysin selvää, kuinka hyvä analyysin on oikein oltava erilaisten tutkimuskysymysten realistiseen ratkaisemiseen. Tässäkin suhteessa istun itse nyt koekaniinin penkillä ja pyrin vastaamaan tiettyihin selvästi rajattuihin tutkimuskysymyksiin tällaista aineistoa käyttäen. Projektimme tulee myös tuottamaan laajemman kuvauksen komin lauseopista, ja väitöskirjani valmistuu myös vielä sen aikana.
Tutkimusprojektini on parhaillaan siirtämässä komin korpuksiaan Kielipankin infrastruktuuriin. Aiemmassa projektissa vuosina 2014–2016 kerätyt ja litteroidut nauhoitteet tulevat Korpiin haettavaksi, mikä on kaikin tavoin erittäin tärkeää. On aivan oleellista, että kerätyt aineistot tulisivat mahdollisimman nopeasti koko tutkimusyhteisön hyödynnettäviksi, ja mielestäni tähän pitäisi luoda jatkuvasti suoraviivaisempia ja vakiintuneempia käytäntöjä.
Teen tällä hetkellä Kielipankkiin skriptejä, joilla komin korpuksen tiedostot voidaan analysoida ja siirtää Korp-käyttöliittymän vaatimaan muotoon. Tämä liittyy myös tiedostojen samanaikaiseen tarkistamiseen. Koska kyseessä on jo viiden vuoden käsityön tulos, löytyy litteroinneista valtavasti pieniä poikkeavia rakenteita, joita nyt etsitään automaattisesti ja korjataan sopivin keinoin. Tällaiset poikkeavuudet kuitenkin ilmenisivät käyttäjille erilaisina hankaluuksina, erityisesti siten, että osa korpuksen sisällöstä jäisi helposti pois Korpista, tai sitten tiedot olisivat väärässä paikassa. Luonnollisesti tulemme jakamaan kaikki ratkaisumme ja kokemuksemme kaikille avoimen tieteen hengessä.
En ole vielä käyttänyt Kielipankin aineistoja julkaisuissani, mutta olen erittäin kiinnostunut muun muassa suomen ja karjalan aineistoista, jotka ovat Kielipankissa saatavilla.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.