Seuraavassa kuvataan Turku Dependency Treebank (TDT) -dependenssijäsentimellä jäsennettyjen korpusten saneiden piirteet sekä sanaluokka- ja dependenssirelaatiokoodien merkitykset. Useimmat Kielipankin automaattisesti jäsennetyistä korpuksista noudattavat tätä koodaustapaa.
nimi | merkitys |
---|---|
word |
sananmuoto (pintamuoto) |
lemma |
sanan perusmuoto |
lemmacomp |
sanan perusmuoto, johon on merkitty yhdyssanaraja (# ) |
pos |
sanaluokka |
msd |
morfologinen analyysi (morfosyntaktinen kuvaus) |
ref |
sanan järjestysnumero virkkeen sisällä |
dephead |
pääsanan järjestysnumero virkkeen sisällä |
deprel |
dependenssirelaatio suhteessa pääsanaan |
Lisäksi KLK-korpuksessa on piirre ocr
, joka kuvaa tekstintunnistuksen arvioitua luotettavuutta (todennäköisyyttä) kyseisen sanan kohdalla.
koodi | merkitys (Korpissa näkyvä nimitys) |
---|---|
A |
adjektiivi |
Adp |
adpositio |
Adv |
adverbi |
C |
konjunktio |
Foreign |
vierassana |
Interj |
interjektio |
N |
substantiivi |
Num |
numeraali |
Pron |
pronomini |
Punct |
välimerkki |
Symb |
symboli |
V |
verbi |
koodi | merkitys (Korpissa näkyvä nimitys) |
---|---|
_ |
muu |
acomp |
adjektiivikomplementti |
adpos |
adpositio |
advcl |
adverbiaalinen lauseenmääre |
advmod |
adverbimääre |
amod |
adjektiivimääre |
appos |
appositio |
arg |
argumentti |
aux |
apuverbi |
auxpass |
passiivin apuberbi |
cc |
rinnastuskonjunktio |
ccomp |
lausekomplementti |
comp |
komplementti |
compar |
komparatiivi |
comparator |
vertailukonjunktio |
complm |
komplementoija |
conj |
rinnastus |
cop |
kopula |
csubj |
lausesubjekti |
csubj-cop |
kopulan lausesubjekti |
dep |
dependentti |
det |
determineri |
dobj |
suora objekti |
ellipsis |
pääsanan ellipsi |
gobj |
genetiiviobjekti (substantiivin) |
gsubj |
genetiivisubjekti (substantiivin) |
iccomp |
infiniittinen lausekomplementti |
infmod |
infinitiivimääre |
intj |
interjektio |
mark |
merkitsin |
mod |
määre |
name |
monisanainen nimi |
neg |
kieltosana |
nn |
yhdyssubstantiivimääre |
nommod |
moninaalimääre |
nommod-own |
nominaalimääre: omistaja |
nsubj |
nominaalisubjekti |
nsubj-cop |
kopulan nominaalisubjekti |
num |
numeraalimääre |
number |
numeroilmaus |
parataxis |
parataksi |
partmod |
partisiippimääre |
poss |
genetiivimääre |
preconj |
prekonjunktio |
prt |
fraasipartikkeli |
punct |
välimerkki |
quantmod |
kvanttorimääre |
rcmod |
relatiivilausemääre |
rel |
relatiivisana |
ROOT |
pää |
subj |
subjekti |
voc |
vokatiivi |
xcomp |
avoin lausekomplementti |
xsubj |
ulkoinen subjekti |
xsubj-cop |
kopulan ulkoinen subjekti |
Morfologisessa analyysissa eri piirteet on erotettu pystyviivoilla. Yksittäiset piirteet ovat muotoa PIIRRE_Arvo
.
Merkkitason vaihto |
---|
CASECHANGE_Up |
Sijamuoto |
CASE_Abe |
CASE_Abl |
CASE_Acc |
CASE_Ade |
CASE_All |
CASE_Com |
CASE_Dis |
CASE_Ela |
CASE_Ess |
CASE_Gen |
CASE_Ill |
CASE_Ine |
CASE_Ins |
CASE_Lat |
CASE_Nom |
CASE_Par |
CASE_Prl |
CASE_Tra |
Liitepartikkeli |
CLIT_Foc_han |
CLIT_Foc_han+Foc_kaan |
CLIT_Foc_han+Foc_pa |
CLIT_Foc_han+Qst |
CLIT_Foc_ka |
CLIT_Foc_ka+Foc_han |
CLIT_Foc_ka+Foc_han+Foc_kaan |
CLIT_Foc_ka+Foc_kaan |
CLIT_Foc_ka+Foc_kin |
CLIT_Foc_ka+Foc_pa |
CLIT_Foc_ka+Foc_pa+Foc_han |
CLIT_Foc_ka+Foc_pa+Foc_s |
CLIT_Foc_ka+Qst |
CLIT_Foc_ka+Qst+Foc_s |
CLIT_Foc_kaan |
CLIT_Foc_kaan+Foc_han |
CLIT_Foc_kaan+Foc_kin |
CLIT_Foc_kaan+Foc_pa |
CLIT_Foc_kaan+Qst |
CLIT_Foc_kin |
CLIT_Foc_kin+Foc_han |
CLIT_Foc_kin+Foc_kaan |
CLIT_Foc_kin+Foc_pa |
CLIT_Foc_kin+Qst |
CLIT_Foc_pa |
CLIT_Foc_pa+Foc_han |
CLIT_Foc_pa+Foc_kaan |
CLIT_Foc_pa+Foc_kin |
CLIT_Foc_pa+Foc_s |
CLIT_Foc_pa+Qst |
CLIT_Foc_s |
CLIT_Foc_s+Foc_han |
CLIT_Foc_s+Foc_kaan |
CLIT_Foc_s+Foc_kin |
CLIT_Foc_s+Foc_kin+Foc_pa |
CLIT_Foc_s+Foc_pa |
CLIT_Foc_s+Foc_pa+Foc_s |
CLIT_Foc_s+Qst |
CLIT_Foc_s+Qst+Foc_han |
CLIT_Foc_s+Qst+Foc_pa |
CLIT_Foc_s+Qst+Foc_s |
CLIT_Qst |
CLIT_Qst+Foc_han |
CLIT_Qst+Foc_kaan |
CLIT_Qst+Foc_kin |
CLIT_Qst+Foc_pa |
CLIT_Qst+Foc_s |
Adjektiivin vertailuaste |
CMP_Comp |
CMP_Pos |
CMP_Superl |
DRV_Der_inen |
DRV_Der_ja |
DRV_Der_lainen |
DRV_Der_llinen |
DRV_Der_minen |
DRV_Der_sti |
DRV_Der_tar |
DRV_Der_tattaa |
DRV_Der_tatuttaa |
DRV_Der_ton |
DRV_Der_tse |
DRV_Der_ttaa |
DRV_Der_ttain |
DRV_Der_u |
DRV_Der_vs |
Infinitiiviluokka |
INF_Inf1 |
INF_Inf2 |
INF_Inf3 |
Tapaluokka |
MOOD_Cond |
MOOD_Eve |
MOOD_Imprt |
MOOD_Ind |
MOOD_Opt |
MOOD_Pot |
Kielto |
NEG_ConNeg |
Luku |
NUM_Pl |
NUM_Sg |
Muu |
OTHER_UNK |
Partisiippi |
PCP_AgPcp |
PCP_Pcp |
PCP_PrfPrc |
PCP_PrsPrc |
Possessiivisuffiksi |
POSS_Px3 |
POSS_PxPl1 |
POSS_PxPl2 |
POSS_PxSg1 |
POSS_PxSg2 |
Persoona |
PRS_Pe4 |
PRS_Pl1 |
PRS_Pl2 |
PRS_Pl3 |
PRS_Sg1 |
PRS_Sg2 |
PRS_Sg3 |
Välimerkki |
Punct |
Alakategoria |
SUBCAT_Abbr |
SUBCAT_Acro |
SUBCAT_CC |
SUBCAT_CS |
SUBCAT_Card |
SUBCAT_Dem |
SUBCAT_Indef |
SUBCAT_Interr |
SUBCAT_Neg |
SUBCAT_Ord |
SUBCAT_Pers |
SUBCAT_Pfx |
SUBCAT_Po |
SUBCAT_Pr |
SUBCAT_Prop |
SUBCAT_Qnt |
SUBCAT_Real |
SUBCAT_Recipr |
SUBCAT_Refl |
SUBCAT_Rel |
Aikamuoto |
TENSE_Prs |
TENSE_Prt |
Verbin pääluokka |
VOICE_Act |
VOICE_Pass |