Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Uppsalan yliopiston kielitieteilijät Niklas Edenmyr, Ali Basirat ja Marc Tang kertovat tekemästään tutkimuksesta, jossa he ovat hyödyntäneet Kielipankin aineistoa Helsinki Corpus of Swahili 2.0 (HCS 2.0) Downloadable Annotated Version.
Olemme Niklas Edenmyr, Ali Basirat ja Marc Tang. Olemme kielitieteilijöitä Uppsalan yliopistossa Ruotsissa. Ryhmässämme Niklas työskentelee Afrikan kielten, Ali tietokonelingvistiikan ja Marc kvantitatiivisen lingvistisen typologian parissa.
Teemme juuri nyt tutkimusta kahden eri hankkeen välisessä yhteistyössä. Ne ovat Principal word embedding ja Linguistic Diversity. Tavoitteena ensimmäisessä hankkeessa on testata ja parantaa sanaupotusten hyödyntämistä kieliaineiston käsittelyssä, kun taas jälkimmäisessä tutkitaan kieltenvälisiä nominien luokittelujärjestelmien rakenteita (esim. kieliopillista sukua). Molemmissa hankkeissa yhteistä on pyrkimys selvittää, miten sanaupotustieto voi olla avuksi tunnistettaessa kieliopillista sukua useissa maailman kielissä.
Yksi tällä hetkellä tutkimistamme kielistä on swahili (Niger-Congo). Sen nominien luokittelujärjestelmä on suhteellisen monimutkainen, kielessä kun on yli 15 nominaalista luokkaa. Käytämme tutkimuksessamme Kielipankin aineistoa Helsinki Corpus of Swahili 2.0 (HCS 2.0) Downloadable Annotated Version, joka sisältää noin 25 miljoonaa annotoitua sanaa. Sen avulla voimme opettaa menetelmälle sanaupotusmalleja ja testaamme, voivatko sanavektorit olla avuksi nominaalisten luokkien tunnistamisessa swahilin kielessä.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.