Korp-työkalussa eli ”Korpissa” on kirjautumisominaisuus, jonka ansioista Korpiin voidaan viedä myös sellaisia aineistoja, joiden käyttöoikeus on rajattu HAKA-kirjautuneille tutkijoille (ACA) tai vain henkilökohtaisen käyttöoikeuden saaneille (RES).
Seuraavassa on joitain (alustavia) ohjeita, joita kannattaa mahdollisuuksien mukaan noudattaa, kun koodaat tai valmistelet aineistoa Korp-palveluun vietäväksi. Tämä nopeuttaa aineiston viemistä Korpiin. Myös muunlainen muoto on mahdollista muuntaa Korpin käyttämään muotoon, kunhan aineiston koodaus on tehty johdonmukaisesti. Tällöin aineiston olisi toivottavaa olla XML-muodossa (esim. TEI) tai muussa yhtenäisesti koodatussa tekstimuodossa. Kysy tarvittaessa lisätietoja FIN-CLARINin Korp-yhteyshenkilöltä, Jyrki Niemeltä (jyrki.niemi [AT] helsinki.fi).
Korpin pohjana oleva *Corpus Workbench* käyttää ”verticalized text” eli VRT-muotoa, jossa yhdellä rivillä ovat sarkainmerkillä erotettuina sananmuoto (sane) ja sen mahdolliset annotaatioattribuutit (perusmuoto, sanaluokka, morfologinen analyysi jne.). Tekstin rakennetta esitetään XML-tyylisillä elementeillä (”rakenneattribuuteilla”), jotka ovat omilla riveillään. XML-elementit voivat sisältää attribuutteja. Lisätietoa formaatista saa Corpus Workbenchin dokumentaatiosta. Koska VRT-muoto muistuttaa XML-muotoa, jokin XML-muoto on hyvä lähtökohta Korpiin vietävälle aineistolle.
Korpia varten tiedostojen *merkistökoodauksena on UTF-8*.
Saneiden, saneiden attribuuttien ja rakenneattribuuttien arvojen sisältämät merkit &
ja <
tulee koodata XML-merkkiviittauksina &
ja <
. Myös muita XML:n vakiomerkkiviittauksia voi käyttää: "
(ASCII-lainausmerkki) = "
, '
(ASCII-heittomerkki) = '
ja >
= >
, mutta näiden käyttöön on tarvetta lähinnä silloin, jos lainausmerkkien ympäröimä rakenneattribuutin arvo sisältää samantyyppisen lainausmerkin. Sen sijaan ei pidä käyttää XML:n numeerisia merkkiviittauksia &#nnnn; ja &#xhhhh; eikä esim. HTML:n nimettyjä merkkiviittauksia (esim. ä
), sillä Corpus Workbench tulkitsee ne kirjaimellisesti.
Saneiden attribuuttien (sarakkeiden) merkityksinä voivat olla esimerkiksi (dependenssijäsennetyssä korpuksessa):
Sananmuotoa lukuun ottamatta attribuutit voivat olla muussakin järjestyksessä ja niitä voi olla enemmän tai vähemmän, kunhan yhdessä korpuksessa kaikilla sanoilla on samat attribuutit. Jos jotain attribuuttia ei ole korpuksessa, kyseinen sarake jätetään kokonaan pois.
Korp tunnistaa ja käyttää kolmea tekstin rakennetasoa: teksti (XML-elementti text
), kappale (paragraph
) ja virke (sentence
). Aineiston koodaamisessa kannattaa käyttää näitä rakenne-elementtien nimiä. Rakenteista ainoastaan sentence
on pakollinen. KWIC-konkordanssinäkymässä Korp näyttää sanan esiintymäkontekstina sen sisältävän sentence
-elementin sisällön, kontekstinäkymässä paragraph
-elementin sisällön (jos aineisto sisältää paragraph
-tason). Muutkin alkuperäisaineiston sisältämät rakenteet kannattaa mahdollisuuksien mukaan säilyttää, vaikka ne eivät näykään Korpissa muuten kuin mahdollisten attribuuttiensa kautta.
Rakenne-elementtien attribuutit voivat pääosin olla vapaamuotoisia. Tiettyä tekstiä koskevat kuvailutiedot kannattaa esittää text
-elementin attribuutteina.
Jos alkuperäisen tekstin luontiajankohta on tiedossa, se merkitään text
-elementin attribuutteihin datefrom
ja dateto
muodossa vvvvkkpp. Jos ajankohta on tiedossa päivän tarkkuudella, attribuuttien datefrom
ja dateto
arvo on sama; jos on tiedossa vain vuosi vvvv, merkitään datefrom="vvvv0101"
ja dateto="vvvv1231"
. Erityisesti dependenssijäsennetyissä korpuksissa sentence
-elementeillä pitäisi olla attribuutti id
, jonka arvo on korpuksen sisällä yksikäsitteinen kokonaisluku.
Rakenne-elementtien ja niiden attribuuttien nimet saavat sisältää vain merkkejä a–z, 0–9, - (yhdysviiva) ja _ (alaviiva), eli erityisesti ei suuraakkosia. Nimet eivät myöskään saa alkaa numerolla. Lisäksi olisi suotavaa, että rakenne-elementtien nimet eivät sisältäisi alaviivoja.
Korpin käyttöliittymä tarvitsee tiedon käytetyistä attribuuteista. Aineiston yhteydessä olisikin hyvä toimittaa luettelo sekä saneiden annotaatioattribuuteista että erityisesti rakenne-elementtien attribuuteista ja niiden lyhyehköt selväkieliset nimitykset ainakin suomeksi, mielellään myös englanniksi ja ruotsiksi.
Jos jonkin attribuutin arvojoukko on kiinteä ja pienehkö (esim. sanaluokka), sille voi tehdä Korpin laajennettuun hakuun valintalistan, jossa arvoilla voi olla selväkielisemmät nimet (esim. N
= substantiivi). Myös tällaisten attribuuttien arvojen nimityksistä olisi hyvä olla luettelo.
Rinnakkaiskorpukset koodataan kukin kieli erikseen. Kohdistus merkitään kohdistetun XML-elementin id
-attribuuttina: keskenään kohdistetuilla osilla on sama id
. Kohdistuselementti voi olla sentence
tai paragraph
, jos korpus on kohdistettu yksi yhteen virke- tai kappaletasolla, tai kohdistuselementti voi olla erillinen, esim. align
.
Seuraavassa on esimerkki korpuksen koodauksesta Korpin käyttämässä muodossa. Taulukon kukin sarake vastaa yhtä sananmuodon attribuuttia, jotka todellisessa tiedostossa on erotettu sarkainmerkeillä. Sananmuotojen attribuutit ovat samat ja samassa järjestyksessä kuin edellä olevassa listassa. Rakenne-elementteinä ovat text
, chapter
, speech
, paragraph
ja speech
.
<text filename=”EuroParl Corpus/fi-en/fi/ep-00-01-17.txt” title=”” codetitle=”” url=”” datefrom=”20000117″ dateto=”20000117″> | |||||||
<chapter id=”1″ title=”Istuntokauden uudelleenavaaminen”> | |||||||
<paragraph id=”1″> | |||||||
<sentence id=”1″ line=”2″> | |||||||
Istuntokauden | istuntokausi | istunto#kausi | N | N Gen Sg | 2 | obj | 1 |
uudelleenavaaminen | uudelleenavaaminen | uudelleen#avaaminen | N | N Nom Sg | 0 | main | 2 |
</sentence> | |||||||
</paragraph> | |||||||
<speech speakerid=”1″ speakername=”Puhemies” language=”und”> | |||||||
<paragraph id=”2″> | |||||||
<sentence id=”2″ line=”4″> | |||||||
Julistan | julistaa | julistaa | V | V Prs Act Sg1 | 0 | main | 1 |
perjantaina | perjantai | perjantai | N | N Ess Sg | 1 | advl | 2 |
joulukuun | joulukuu | joulu#kuu | N | N Gen Sg | 5 | attr | 3 |
17. | 17. | 17. | Num | Num Digit | 5 | attr | 4 |
päivänä | päivä | päivä | N | N Ess Sg | 1 | advl | 5 |
keskeytetyn | keskeyttää | keskeyttää | !PrfPrc | !PrfPrc Pass Pos Gen Sg | 9 | attr | 6 |
Euroopan | Eurooppa | Eurooppa | N | N Prop Gen Sg | 8 | attr | 7 |
parlamentin | parlamentti | parlamentti | N | N Gen Sg | 9 | attr | 8 |
istunnon | istunto | istunto | N | N Gen Sg | 10 | obj | 9 |
avatuksi | avata | avata | !PrfPrc | !PrfPrc Pass Pos Tra Sg | 1 | advl | 10 |
… | |||||||
. | . | . | Punct | Punct | – | – | 26 |
</sentence> | |||||||
</paragraph> | |||||||
… | |||||||
</speech> | |||||||
… | |||||||
</chapter> | |||||||
… | |||||||
</text> |