Suomen kielen näytteitä

Suomen kielen näytteitä

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Muutokset

HUOM: Tämän aineiston ladattava versio paketoitiin uudelleen 31.1.2023, koska joitakin tietoja havaittiin puuttuneen aiemmista latauspaketeista.
Seuraavat tiedot lisättiin:

Murrekirjasarjan yksittäisten osien neljä esittelytekstiä (”saate”) PDF-muodossa
PDF-tiedostot, joissa on yleistietoja kustakin 50 paikkakunnasta
wav-äänitiedostot paikkakunnista 9-14

Tarkka luettelo lisätyistä tiedostoista

Sisältö ja rakenne

Suomen kielen näytteitä -korpus eli SKN-korpus perustuu Kotimaisten kielten keskuksen vuosina 1978–2000 julkaisemaan samannimiseen murrekirjasarjaan (ks. Suomen kielen näytteitä). Yhteensä ilmestyi 50 kirjasta, joissa jokaisessa on litteroituna noin kaksi tuntia murretta. Sarjaan valitut pitäjät edustavat kattavasti eri murrealueita. Aineistona ovat olleet pääasiassa Suomen kielen nauhoitearkiston äänitteet. Alkuperäisestä SKN-sarjasta on luotu aineisto, joka sisältää sekä äänitteet että niihin kohdistetun litteroidun tekstin. Korpus on jaettu viiteenkymmeneen osaan paikkakunnan ja aiemmin julkaistujen murrekirjojen mukaan. Kustakin osasta on yleensä saatavilla kaksi murrenäytettä.

Teksti ja ääni on kohdistettu karkeasti virkkeen tai toisinaan puheenvuoron mittaisina katkelmina. Tekstin perusteella korpuksesta voidaan tehdä hakuja, ja hakutuloksia vastaavia ääninäytteen kohtia pääsee suoraan kuuntelemaan.

SKN-korpuksessa on yhteensä 696 376 litteroitua sanaa, ja näistä 684 977 sanaan liittyy yleiskielistetty sananmuoto. Huomaa, että yleiskielistys ei välttämättä ole yksiselitteinen, vaikka sanan merkitys kontekstissa onkin pyritty huomioimaan. Yleiskielistämättömiä ovat kesken tai epäselviksi jääneet sanat. Yleiskielistyksen periaatteet on kuvattu korpuksen juuresta löytyvässä dokumentissa yleiskielistys_skn.pdf.

Aineistosta on saatavilla useita eri versioita, ks. yllä.

Lisätietoa äänitteistä ja annotaatioista

Koska alkuperäiset haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja nauhat on digitoitu vasta myöhemmin, monissa tähän aineistoon kuuluvissa äänitallenteissa esiintyy taustakohinaa ja ajoittaista muutakin hälyä, ja tallenteiden äänentaso saattaa vaihdella. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella.

Aineiston LAT-versio on poistunut käytöstä marraskuussa 2020

Kielipankin LAT-alusta poistettiin käytöstä vuoden 2020 lopulla. Vaikka tätä aineistoa ei enää voi käyttää LAT-käyttöliittymän kautta, kaikki LATissa ollut tähän aineistoon kuuluva sisältö on kuitenkin saatavilla ladattavassa muodossa. Annotoituja puhenäytteitä pääsee tutkimaan omalla koneella esimerkiksi ELAN– ja Praat-ohjelmilla.

EAF-muotoisten annotaatiotiedostojen sisältö

Jokaista alkuperäisen aineiston äänitallennetta vastaa EAF-muotoinen annotaatiotiedosto (esim. SKN01a_Suomussalmi.eaf). Kun EAF-tiedosto ja sitä vastaava äänitiedosto on ladattu omalle koneelle (ks. aineiston ladattava versio), ne voi avata muokattavaksi ELAN-ohjelmalla. Jos ELAN-ohjelma ei löydä EAF-tiedostoon linkitettyä mediatiedostoa koneeltasi automaattisesti, voit paikantaa sen koneelta käsin. Kun tämän jälkeen tallennat EAF-tiedoston, myös siihen liittyvä äänitiedosto löytyy jatkossa suoraan samalla koneella.

EAF-muotoisten annotaatiotiedostoissa on useita annotaatiokerroksia. Yhdessä on kyseisen puhujan virkkeiden tms. jaksojen litteraatit ja toisessa litteroitujen jaksojen karkeasti yleiskielistetyt vastineet. Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty. Näiden litteroituja puhunnoksia sisältävien kerrosten lisäksi annotaatiotiedostossa on myös sanekohtaiset kerrokset, joihin on merkitty yksittäisten saneiden alkuperäiset ja karkeasti yleiskielistetyt muodot kohdakkain. Huomaa, että yksittäisiä saneita ei ole kohdistettu ääneen, vaan ne on tarkoitettu ainoastaan monimutkaisempien sisältöhakujen helpottamiseksi.

Saatavilla on lisäksi EAF-tiedostoja vastaavat TextGrid-tiedostot, joita voi käyttää Praat-ohjelmalla. TextGrid-tiedoston pariksi on Praatilla avattava myös vastaava WAV-äänitiedosto (toisin kuin ELANissa, äänitiedosto ei Praatissa avaudu automaattisesti annotaatiotiedoston mukana).

Äänen ja tekstin kohdistus on alunperin tehty tuomalla XML-muotoiset yleiskielistysdokumentit Praat-skriptin avulla TextGrid-muotoisiin annotaatiotiedostoihin, jotka on puolestaan muunnettu toisella Praat-skriptillä ELAN-ohjelman käyttämään EAF-muotoon.

Jokaiselle EAF-tiedostojen sisältämälle annotaatiokerrokselle on ELANissa määritetty ns. lingvistinen tyyppi (Linguistic type), minkä ansiosta ELAN-hakuja voidaan kohdistaa vaikkapa koko korpuksen kaikkiin yleiskielistettyjä sananmuotoja sisältäviin kerroksiin. Annotaatiokerrosten ja lingvististen tyyppien välisiä hierarkisia suhteita ei ole teknisistä syistä määritetty SKN-korpuksen tiedostoille. Mikäli haluat muokata annotaatioita ELAN-ohjelmalla, kannattaa muistaa, että annotaatiokerrokset ovat itsenäisiä, ts. mikäli siirrät esimerkiksi ”normalized word” -tyyppisiä annotaatioita tai niiden rajoja, muutokset eivät automaattisesti heijastu vastaaviin yksiköihin muissa kerroksissa. Joskus omia muutoksia voikin olla helpompi tehdä TextGrid-muotoisiin annotaatiotiedostoihin Praat-ohjelmalla, jossa samalla kohdalla olevia annotaatioiden rajoja on mahdollista siirtää yhtä aikaa. Vaihtoehtoisesti voit ensin käsin luoda omaan ELAN-muotoiseen korpusversioosi annotaatiokerrosten välisen hierarkian luomalla lingvistisistä tyypeistä uudet versiot (Type: Add linguistic type…) ja käyttämällä sen jälkeen ELANin Tier: Change parent of tier… -komentoa.

Annotaatioihin pohjautuvien hakujen tekeminen

Korpuksen litteraattien sisältämän tekstin perusteella voi tehdä hakuja Korp-palvelussa.

Hakuja voidaan tehdä myös ELAN-ohjelmassa, jossa voidaan hyödyntää litteroidun tekstin lisäksi eri annotaatiokerrosten tyyppejä. Alkuperäistä litteraatiota edustavat annotaatiokerrosten tyypit ”original sentence” ja ”original word”, ja näiden alustavia yleiskielistyksiä tyypit ”normalized sentence” ja ”normalized word”. Joidenkin saneiden yleiskielistettyyn muotoon liittyy myös lisähuomautuksia, jotka on kuvattu kerroksessa ”note for normalized word”.

Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyypin nimessä on maininta ”interviewer”. Kaikki muut kerrokset liittyvät joko haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen.

Korpuksen tuottajat

Alkuperäisen ääniaineiston on käsitellyt Sakari Pietarila. Alkuperäiset litteroinnit on julkaistu murrekirjoissa, joiden esittelyosat on liitetty korpuksen vastaaviin osiin pdf-muotoisina dokumentteina. Tekstin ja äänen ovat Kotuksessa alustavasti kohdistaneet My Sjöholm, Pauliina Liuska ja Olli Miettinen. Yleiskielistyksestä ovat vastanneet Kotuksessa Maria Vilkuna, Pauliina Liuska ja Pinja Ruponen. Äänitteet ja kohdistetut annotaatiotiedostot on muuntanut alun perin LAT-järjestelmää varten Mietta Lennes.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-201407141

Hae Kielipankki-portaalista:

Kuukauden tutkija: Pekka Posio

Näytä kaikki tapahtumat

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot