Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston post doc -tutkija Simon Hengchen kertoo Kielipankin aineistolla Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio tekemästään tutkimuksesta.
Olen Simon Hengchen, postdoc-tutkija Helsingin yliopistossa, jossa työskentelen tutkimusryhmässä COMHIS – the Helsinki Computational History group. Olen kotoisin Brysselistä, jossa olen suorittanut tohtorin tutkinnon informaatiotieteiden alalla.
Viime vuosina olen keskittynyt leksikaalisen semanttisen muutoksen tietokonelingvistisiin lähestymistapoihin – milloin, miten ja miksi sanojen merkitys muuttuu tai merkitykset muuttuvat. Tohtoriväitöstutkimuksessani tarkastelin merkityksen muutoksen havaitsemista, mutta viime aikoina olen siirtynyt tutkimaan lähemmin merkitysten dynamiikkaa sekä niiden mallintamiseen soveltuvia menetelmiä.
Olen käyttänyt Kielipankin kautta saatavilla olevaa Kansalliskirjaston sanomalehtiaineistojen osakorpusta Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio suomen kielen sanaupotusten opetusmateriaalina yhteistyössä historian tutkijoiden Jani Marjasen ja Mikko Tolosen Helsingin yliopistosta sekä Ruben Rosin Utrechtin yliopistosta kanssa kirjoitettua artikkelia varten. Aineiston avulla pystyimme mallintamaan ´semanttisia´ suhteita substantiivien välillä, joilla kuvataan kansakunnan rakentamista Suomessa ja jotka meidän oli mahdollista hakea aineistosta Korp APIn kautta. Korp API on Kielipankin tarjoama rajapinta, joka mahdollistaa tarvitsemamme annotaatioon kohdistuvat kyselyt. Tutkimiemme sanojen välisten semanttisten suhteiden avulla pystyimme kuvaamaan käsitettä ’valtio’ suomalaisissa sanomalehdissä. Työ tehtiin NewsEye-projektissa, joka on saanut rahoitusta Euroopan unionin tutkimuksen ja innovoinnin puiteohjelmasta Horizon 2020.
HENGCHEN, S., ROS, R., and MARJANEN, J. (2019). A data-driven approach to the changing vocabulary of the ‘nation’ in English, Dutch, Swedish and Finnish newspapers, 1750-1950. In Proceedings of the Digital Humanities (DH) conference 2019, Utrecht, The Netherlands.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.