kuva: Martti Vainio
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston jatko-opiskelija Anna Dannenberg kertoo Suomen kielen näytteitä -korpusta koskevasta tutkimuksestaan.
Olen Anna Dannenberg, jatko-opiskelija Helsingin yliopistossa.
Teen väitöstutkimustani yleisen kielitieteen, kieliteknologian ja fonetiikan rajamailla, aiheena puhutun kielen prosodisten ja syntaktisten rakenteiden vertaaminen. Tutkimuksen tavoitteena on puhutun kielen kieliopillisten erityispiirteiden uudenlainen hahmottaminen prosodisten ominaisuuksien avulla.
Tutkimuksen pohjana on professori Martti Vainion tutkimusryhmän kehittämä jatkuvaan wavelet-muunnokseen (Continuous Wavelet Transform, CWT) perustuva automaattinen menetelmä, jonka avulla puheen prosodinen hierarkiarakenne voidaan mallintaa visuaalisesti. Omassa tutkimuksessani vertaan näitä prosodisia hierarkioita puhutun kielen syntaktisiin rakenteisiin.
Käytännön tutkimukseni ensimmäinen vaihe on ollut puhutun kielen kieliopillisten lauseiden vertaaminen prosodisiin yksiköihin. Ensimmäisenä koeaineistona toimi muutama Kielipankkiin tallennetusta Suomen kielen näytteitä -korpuksesta poimittu murrehaastattelu. Wavelet-analyysia äänidataan soveltamalla saatiin kuvattua puheen prosodiarakenne, ja syntaktinen lausesegmentointi tehtiin litteroinnin pohjalta äänidatasta riippumattomasti. Näiden tulosten vertaaminen osoitti, että prosodisten ja syntaktisten yksikkörajojen sijainnit korreloivat puheaineistossa vahvasti keskenään.
Esittelin tutkimuksen tuloksia ICPhS-konferenssissa Glasgow’ssa elokuussa 2015. Tämän jälkeen olemme professori Stefan Wernerin kanssa jatkaneet tutkimusta laajemmalla englanninkielisellä puheaineistolla, mutta mahdollisesti palaamme vielä SKN-korpuksenkin pariin, mikäli joskus myöhemmin haluamme verrata suomen ja englannin tuloksia keskenään.
Suomen kielen näytteitä -korpuksen hankinnan taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.