Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston opiskelija Matias Tamminen kertoo Kielipankin aineistojen käsittelyalustan Myllyn avulla tekemästään tutkimuksesta aineistoilla Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita suomeksi ja Suomalaisen kirjallisuuden klassikoita.
Olen Matias Tamminen. Opiskelen viidettä vuotta Helsingin yliopistossa. Pääaineeni on englannin kääntäminen. Sivuaineitani ovat ruotsin kääntäminen, suomen kieli ja käännöstiede. Kirjoitan parhaillaan pro gradu -tutkielmaani.
Vertailen gradussani käännetyn kaunokirjallisen proosan ja supisuomalaisen kaunokirjallisen proosan sanaluokka-n-grammien suhteellisten esiintyvyyksien eroja korpusaineiston pohjalta. Tarkoituksena on selvittää, onko käännetyllä kaunokirjallisella proosalla sellaisia syntaktisia piirteitä, jotka eroaisivat supisuomalaisesta kaunokirjallisesta proosasta. Aion myös pohtia, ovatko mahdolliset erot linjassa käännöstieteessä esitettyjen käännösuniversaalihypoteesien (eli piirteiden, jotka ovat yhteisiä kaikelle käännetylle kielelle) kanssa..
Tutkimukseni pohjautuu artikkeliin Borin L., Prütz K. 2001. Through a glass darkly: Part of speech distribution in original and translated text. In: W. Daelemans, K. Sima’an, J. Veenstra, J. Zavrel (eds) Computational Linguistics in the Netherlands 2000; 2001:30–44.
Sekä käännetyn kielen korpus Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita suomeksi että supisuomalaisen kielen korpus Suomalaisen kirjallisuuden klassikoita (osakorpukset, jotka sisältävät supisuomalaista kaunokirjallista proosaa – koko korpuksessa on muutakin) ovat Kielipankilta. Näiden korpusten lisäksi minulla on kaksi itse koostamaani verrokkikorpusta, joista ensimmäinen sisältää käännössuomalaisia kaunokirjallisia teoksia muista lähtökielistä kuin englannista ja toinen englannista käännettyjen kirjojen lähtötekstit.
Käsittelen dataa Kielipankin Mylly-ohjelmistossa. Tietokoneelleni ladatut korpukset on syötetty Myllyyn, jossa ne on sitten annotoitu kielen parserilla eli korpukseen on merkitty kunkin sanan ominaisuudet, kuten sanaluokka, koneellisesti. Näistä annotoiduista korpuksista on sitten Myllyn avulla laskettu sanaluokka-n-grammit n:n arvoilla yhdestä viiteen. N-grammien esiintyvyydet on sitten normalisoitu, jotta ne olisivat vertailukelpoisia yli korpusrajojen. Lopuksi on laskettu näiden normalisoitujen esiintyvyyksien eroja parilla eri metodilla. Myllystä on apua myös tulosten käsittelyvaiheessa monilla tavoilla. Voin esimerkiksi poimia haluamani n-grammin ja kaikki sen esiintymät koneellisesti tai järjestää ja numeroida n-grammiluettelon haluamani tekijän mukaan.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli on julkaistu myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.