Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Ladataan... | ||||||||
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Lauseopin arkiston murrekorpus on aineistokokonaisuus, joka on tuotettu Turun yliopiston ja Kotimaisten kielten keskuksen (Kotus, entinen Kotimaisten kielten tutkimuskeskus) yhteistyönä Suomen kielen nauhoitearkiston ja Turun yliopiston äänitearkiston haastatteluäänitteistä. Äänitteet on litteroitu ja haastateltavien puheen osalta kieliopillisesti annotoitu vuosina 1976–1984. Käsin, numerokoodeina toteutettu kieliopillinen analyysi on sittemmin muunnettu rakenteiseen muotoon ja täydennetty sanojen lemmamuodoilla, ja siihen on tehty korjauksia ja yhdenmukaistuksia.
Kielipankissa oleva Lauseopin arkiston murrekorpus sisältää sekä äänitteet että niihin kohdistetun litteroidun tekstin. Teksti ja ääni on kohdistettu virkkeen tai muuten sopivan jakson mittaisina katkelmina. Tekstin perusteella korpuksesta voidaan tehdä hakuja, ja hakutuloksia vastaavia ääninäytteen kohtia pääsee suoraan kuuntelemaan. Kieliopillisiin koodeihin ja lemmoihin perustuvia hakuja voi tehdä Korp-järjestelmässä.
Aineisto koostuu 142 murrenäytteestä, jotka edustavat 132 paikkakuntaa kautta Suomen, mukaan lukien joukko luovutetun Karjalan paikkakuntia. Useimpia paikkakuntia edustaa yksi näyte, joka on tavallisesti noin tunnin mittainen yhden puhujan haastattelu. Haastattelut ovat yleensä samantyyppisiä kuin SKN-korpuksessa. Osalta paikkakuntia on kaksi lyhyempää näytettä. Eräissä näytteissä taas on kaksi haastateltavaa.
Saneita aineistossa on hieman yli miljoona (Korpin tieto 1 194 163, haastateltavien tuottamia, kieliopillisesti analysoituja saneita yli 887 000), virkkeeksi merkittyjä jaksoja 67894 (Korp, haastateltavilla noin 54 500) ja syntaktisin kriteerein erotettuja ja analysoituja lauseita 166 608.
Lauseopin arkiston murrekorpus on pieniltä osin päällekkäinen SKN-korpuksen kanssa, mm. Kiihtelysvaaran haastattelu (SKN14a) on kokonaan sama. Litteraatio on kuitenkin karkeampi kuin SKN:ssä.
LA-aineistoa on jo pitkään käytetty tutkimuksissa ja opinnäytteissä arkiston henkilökunnan tekemien hakujen ja sittemmin Nobufumi Inaban toteuttaman hakuliittymän avulla. Tehtyjen muunnosten ja korjausten vuoksi vanhat hakutulokset voivat pienessä määrin erota uudemmista. Aineiston alkuvaiheet ja koodijärjestelmä on Osmo Ikolan toimittamassa teoksessa Lauseopin arkiston opas (Lauseopin arkiston julkaisuja 1, Turku: Turun yliopisto 1985).
Aineiston perustyö on tehty Turun yliopistossa 1976–1984. Tekstin ja äänen ovat Kotuksessa kohdistaneet My Sjöholm, Pauliina Liuska, Matti Uusivirta ja Maria Vilkuna, rakenteesta ja korjauksista ovat vastanneet Pauliina Liuska ja Maria Vilkuna.
Kielipankin LAT-alusta poistettiin käytöstä vuoden 2020 lopussa. Kaikki tähän aineistoon kuuluva, aiemmin LATissa ollut sisältö on nykyisin saatavilla ladattavassa muodossa. Myös varsinaisia annotoituja puhenäytteitä pääsee siis jatkossakin tutkimaan esimerkiksi ELAN– ja Praat-ohjelmilla. Huomaa, että Lauseopin arkiston murrekorpuksesta on ladattavissa myös VRT-muotoinen versio, joka ei sisällä alkuperäisiä äänitiedostoja ja annotaatiotiedostoja.
Koska haastattelut on nauhoitettu vaihtelevissa olosuhteissa, tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella. Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.
Annotaatiotiedostojen käsittelyyn tarvitaan yleensä myös vastaavat WAV-äänitiedostot, jotta näytteitä voi kuunnella. EAF-muotoisia annotaatiotiedostoja voi avata muokattavaksi ELAN-ohjelmalla. Saatavilla on lisäksi EAF-tiedostoja vastaavat TextGrid-tiedostot, joita voi käyttää Praat-ohjelmalla. Yksittäisen haastattelunäytteen EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto kannattaa sijoittaa omalla koneella samaan hakemistoon.
Korpissa näkyviä sanojen annotaatioita (sanaluokat, morfologiset piirteet, lauseenjäsentehtävät) on kuvattu erillisellä sivulla.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2014052716
Viimeksi muokattu 2025-05-09