Korp-palvelun vaatima aineistoformaatti

Korp-työkalussa eli ”Korpissa” on kirjautumisominaisuus, jonka ansioista Korpiin voidaan viedä myös sellaisia aineistoja, joiden käyttöoikeus on rajattu HAKA-kirjautuneille tutkijoille (ACA) tai vain henkilökohtaisen käyttöoikeuden saaneille (RES).

Seuraavassa on joitain (alustavia) ohjeita, joita kannattaa mahdollisuuksien mukaan noudattaa, kun koodaat tai valmistelet aineistoa Korp-palveluun vietäväksi. Tämä nopeuttaa aineiston viemistä Korpiin. Myös muunlainen muoto on mahdollista muuntaa Korpin käyttämään muotoon, kunhan aineiston koodaus on tehty johdonmukaisesti. Tällöin aineiston olisi toivottavaa olla XML-muodossa (esim. TEI) tai muussa yhtenäisesti koodatussa tekstimuodossa. Kysy tarvittaessa lisätietoja FIN-CLARINin Korp-yhteyshenkilöltä, Jyrki Niemeltä (jyrki.niemi [AT] helsinki.fi).

VRT-tiedostomuoto

Korpin pohjana oleva *Corpus Workbench* käyttää ”verticalized text” eli VRT-muotoa, jossa yhdellä rivillä ovat sarkainmerkillä erotettuina sananmuoto (sane) ja sen mahdolliset annotaatioattribuutit (perusmuoto, sanaluokka, morfologinen analyysi jne.). Tekstin rakennetta esitetään XML-tyylisillä elementeillä (”rakenneattribuuteilla”), jotka ovat omilla riveillään. XML-elementit voivat sisältää attribuutteja. Lisätietoa formaatista saa Corpus Workbenchin dokumentaatiosta. Koska VRT-muoto muistuttaa XML-muotoa, jokin XML-muoto on hyvä lähtökohta Korpiin vietävälle aineistolle.

Merkistökoodaus

Korpia varten tiedostojen *merkistökoodauksena on UTF-8*.

Saneiden, saneiden attribuuttien ja rakenneattribuuttien arvojen sisältämät merkit & ja < tulee koodata XML-merkkiviittauksina & ja <. Myös muita XML:n vakiomerkkiviittauksia voi käyttää: " (ASCII-lainausmerkki) = ", ' (ASCII-heittomerkki) = ' ja > = >, mutta näiden käyttöön on tarvetta lähinnä silloin, jos lainausmerkkien ympäröimä rakenneattribuutin arvo sisältää samantyyppisen lainausmerkin. Sen sijaan ei pidä käyttää XML:n numeerisia merkkiviittauksia &#nnnn; ja &#xhhhh; eikä esim. HTML:n nimettyjä merkkiviittauksia (esim. ä), sillä Corpus Workbench tulkitsee ne kirjaimellisesti.

Saneiden attribuutit

Saneiden attribuuttien (sarakkeiden) merkityksinä voivat olla esimerkiksi (dependenssijäsennetyssä korpuksessa):

sananmuoto
sanan perusmuoto
sanan perusmuoto, johon on merkitty yhdyssanarajat
sanaluokka
morfologinen analyysi
sanan pääsanan järjestysnumero virkkeen sisällä
dependenssisuhde
sanamuodon itsensä järjestysnumero virkkeen sisällä

Sananmuotoa lukuun ottamatta attribuutit voivat olla muussakin järjestyksessä ja niitä voi olla enemmän tai vähemmän, kunhan yhdessä korpuksessa kaikilla sanoilla on samat attribuutit. Jos jotain attribuuttia ei ole korpuksessa, kyseinen sarake jätetään kokonaan pois.

Rakenteet ja niiden attribuutit

Korp tunnistaa ja käyttää kolmea tekstin rakennetasoa: teksti (XML-elementti text), kappale (paragraph) ja virke (sentence). Aineiston koodaamisessa kannattaa käyttää näitä rakenne-elementtien nimiä. Rakenteista ainoastaan sentence on pakollinen. KWIC-konkordanssinäkymässä Korp näyttää sanan esiintymäkontekstina sen sisältävän sentence-elementin sisällön, kontekstinäkymässä paragraph-elementin sisällön (jos aineisto sisältää paragraph-tason). Muutkin alkuperäisaineiston sisältämät rakenteet kannattaa mahdollisuuksien mukaan säilyttää, vaikka ne eivät näykään Korpissa muuten kuin mahdollisten attribuuttiensa kautta.

Rakenne-elementtien attribuutit voivat pääosin olla vapaamuotoisia. Tiettyä tekstiä koskevat kuvailutiedot kannattaa esittää text-elementin attribuutteina.

Jos alkuperäisen tekstin luontiajankohta on tiedossa, se merkitään text-elementin attribuutteihin datefrom ja dateto muodossa vvvvkkpp. Jos ajankohta on tiedossa päivän tarkkuudella, attribuuttien datefrom ja dateto arvo on sama; jos on tiedossa vain vuosi vvvv, merkitään datefrom="vvvv0101" ja dateto="vvvv1231". Erityisesti dependenssijäsennetyissä korpuksissa sentence-elementeillä pitäisi olla attribuutti id, jonka arvo on korpuksen sisällä yksikäsitteinen kokonaisluku.

Rakenne-elementtien ja niiden attribuuttien nimet saavat sisältää vain merkkejä a–z, 0–9, - (yhdysviiva) ja _ (alaviiva), eli erityisesti ei suuraakkosia. Nimet eivät myöskään saa alkaa numerolla. Lisäksi olisi suotavaa, että rakenne-elementtien nimet eivät sisältäisi alaviivoja.

Attribuutit ja niiden arvot Korpissa

Korpin käyttöliittymä tarvitsee tiedon käytetyistä attribuuteista. Aineiston yhteydessä olisikin hyvä toimittaa luettelo sekä saneiden annotaatioattribuuteista että erityisesti rakenne-elementtien attribuuteista ja niiden lyhyehköt selväkieliset nimitykset ainakin suomeksi, mielellään myös englanniksi ja ruotsiksi.

Jos jonkin attribuutin arvojoukko on kiinteä ja pienehkö (esim. sanaluokka), sille voi tehdä Korpin laajennettuun hakuun valintalistan, jossa arvoilla voi olla selväkielisemmät nimet (esim. N = substantiivi). Myös tällaisten attribuuttien arvojen nimityksistä olisi hyvä olla luettelo.

Rinnakkaiskorpukset

Rinnakkaiskorpukset koodataan kukin kieli erikseen. Kohdistus merkitään kohdistetun XML-elementin id-attribuuttina: keskenään kohdistetuilla osilla on sama id. Kohdistuselementti voi olla sentence tai paragraph, jos korpus on kohdistettu yksi yhteen virke- tai kappaletasolla, tai kohdistuselementti voi olla erillinen, esim. align.

Esimerkki

Seuraavassa on esimerkki korpuksen koodauksesta Korpin käyttämässä muodossa. Taulukon kukin sarake vastaa yhtä sananmuodon attribuuttia, jotka todellisessa tiedostossa on erotettu sarkainmerkeillä. Sananmuotojen attribuutit ovat samat ja samassa järjestyksessä kuin edellä olevassa listassa. Rakenne-elementteinä ovat text, chapter, speech, paragraph ja speech.

<text filename=”EuroParl Corpus/fi-en/fi/ep-00-01-17.txt” title=”” codetitle=”” url=”” datefrom=”20000117″ dateto=”20000117″>
<chapter id=”1″ title=”Istuntokauden uudelleenavaaminen”>
<paragraph id=”1″>
<sentence id=”1″ line=”2″>
Istuntokauden	istuntokausi	istunto#kausi	N	N Gen Sg	2	obj	1
uudelleenavaaminen	uudelleenavaaminen	uudelleen#avaaminen	N	N Nom Sg	0	main	2
</sentence>
</paragraph>
<speech speakerid=”1″ speakername=”Puhemies” language=”und”>
<paragraph id=”2″>
<sentence id=”2″ line=”4″>
Julistan	julistaa	julistaa	V	V Prs Act Sg1	0	main	1
perjantaina	perjantai	perjantai	N	N Ess Sg	1	advl	2
joulukuun	joulukuu	joulu#kuu	N	N Gen Sg	5	attr	3
17.	17.	17.	Num	Num Digit	5	attr	4
päivänä	päivä	päivä	N	N Ess Sg	1	advl	5
keskeytetyn	keskeyttää	keskeyttää	!PrfPrc	!PrfPrc Pass Pos Gen Sg	9	attr	6
Euroopan	Eurooppa	Eurooppa	N	N Prop Gen Sg	8	attr	7
parlamentin	parlamentti	parlamentti	N	N Gen Sg	9	attr	8
istunnon	istunto	istunto	N	N Gen Sg	10	obj	9
avatuksi	avata	avata	!PrfPrc	!PrfPrc Pass Pos Tra Sg	1	advl	10
…
.	.	.	Punct	Punct	–	–	26
</sentence>
</paragraph>
…
</speech>
…
</chapter>
…
</text>

Korp-työkalun käyttöohjeet

Hae Kielipankki-portaalista:

Kuukauden tutkija: Pekka Posio

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot