Tekstin sisältöä voidaan automaattisesti esikäsitellä ja annotoida monin tavoin. Tässä on muutamia esimerkkejä saatavilla olevista työkaluista. Tutkimuskäytössä on toki hyvä muistaa, etteivät menetelmät ole virheettömiä.
CSC:n laskentaympäristöön asennetulla finnish-parse-työkalulla voi jäsentää haluamansa suomenkielisen tekstitiedoston. Kielipankin jäsentimiä voi käyttää myös Myllyn kautta.
CSC:n laskentaympäristössä jäsennys onnistuu seuraavasti:
cat teksti.txt | finnish-parse > tuloste.txt
less tuloste.txt
finnish-parse -skripti tuottaa oletuksena Universal Dependencies -järjestelmän version 1 mukaista muotoa.
Esimerkki:
echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse 1 Kielipankki kieli#pankki NOUN _ Case=Nom|Number=Sing nsubj:cop _ _ 2 on olla VERB _ Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act 6 cop _ _ 3 kieliaineistoja kieli#aineisto NOUN _ Case=Par|Number=Plur dobj _ _ 4 käyttävien käyttää VERB _ Case=Gen|Degree=Pos|Number=Plur|PartForm=Pres|VerbForm=Part|Voice=Act 5 acl _ _ 5 tutkijoiden tutkija NOUN _ Case=Gen|Number=Plur 6 nmod:poss _ _ 6 palvelukokonaisuus palvelu#kokonaisuus NOUN _ Case=Nom|Number=Sing 0 root _ _ 7 . . PUNCT _ _ 6 punct _ _
Universal Dependencies (UD) -järjestelmästä on olemassa myös päivitetty versio 2, mutta sen toteutus finnish-parse-jäsentimeen ei ole vielä täysin valmis. UD2-muoto tulee käyttöön lähitulevaisuudessa. Tarvittaessa jäsentimellä voi myös jatkossa tuottaa ykkösversion mukaista muotoa käyttämällä komennon perässä valitsinta –ud1.
Mikäli haluat saada jäsentimen tuottamaan Korp-palvelussa laajimmin käytettyä muotoa, voit käyttää komennon perässä valitsinta: finnish-parse –stanford. Kuvaukset –stanford -kytkimen tuottamista tageista löytyvät Korpin korpusannotaatiosivulta.
Esimerkki:
echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse --stanford 1 Kielipankki kieli|pankki N NUM_Sg|CASE_Nom|CASECHANGE_Up 6 nsubj-cop 2 on olla V PRS_Sg3|VOICE_Act|TENSE_Prs|MOOD_Ind 6 cop 3 kieliaineistoja kieli|aineisto N NUM_Pl|CASE_Par 4 dobj 4 käyttävien käyttää V NUM_Pl|CASE_Gen|VOICE_Act|PCP_PrsPrc|CMP_Pos 5 partmod 5 tutkijoiden tutkija N NUM_Pl|CASE_Gen 6 poss 6 palvelukokonaisuus palvelu|kokonaisuus N NUM_Sg|CASE_Nom 0 ROOT 7 . . Punct _ 6 punct
finnish-parse-työkalua voi käyttää myös interaktiivisesti jättämällä pois tiedoston nimen. Komento
finnish-parse
lukee käyttäjän kirjoittamaa syötettä rivi kerrallaan (jokaisen rivin jälkeen pitää painaa enteriä kaksi kertaa) ja tulostaa analyysin. Näppäinyhdistelmällä ctrl–D tai ctrl–C voi poistua ohjelmasta.
Laskentaympäristön käyttöohjeita