Tärkeää tietoa aineiston käyttäjille: Poistopyynnöt
Aineiston versiot: | |
---|---|
Lahjoita puhetta -aineisto, versio 1.0 Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
(vain tutkijoille; yhdellä hakemuksella saa pääsyn kaikkiin aineiston versioihin) Hae käyttöoikeutta +PRIV: Aineisto sisältää henkilötietoja. Toimita julkinen ilmoitus henkilötietojen käsittelystä Lataa aineisto |
Lahjoita puhetta -aineisto: Näyte Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
Lataa aineisto |
Lahjoita puhetta: Valikoitu aineisto Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
Lataa aineisto |
Lahjoita puhetta -aineisto: Opetusdata (100h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
|
Lahjoita puhetta -aineisto: Testidata (10h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
|
Lahjoita puhetta -aineisto: Kehitysdata (10h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
|
Lahjoita puhetta -aineisto: Usean litteroijan testidata (1h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
|
Lahjoita puhetta -aineisto: Testidata useaan kertaan litteroiduilta puhujilta (10h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
|
Etsi muut saatavilla olevat versiot |
Lahjoita puhetta -aineisto, lyhytnimeltään Puhelahjat, on koostettu 16.6.2020 alkaneessa Vake Oy:n (sittemmin Ilmastorahasto), Ylen ja Helsingin yliopiston toteuttamassa Lahjoita puhetta -kampanjassa, jossa kuka tahansa suomea osaava henkilö on voinut halutessaan lahjoittaa omaa puhettaan kielentutkimuksen sekä kieliteknologian kehitystyön edistämiseksi. Lahjoitettu puhe on tallennettu helppokäyttöisen selain- tai mobiilisovelluksen kautta.
Kevääseen 2021 mennessä lahjoitetuista puhenäytteistä on rakennettu ääniaineiston ensimmäinen versio, jonka kokonaiskesto on noin 3200 tuntia. Vuonna 2021 näistä äänitteistä litteroitiin käsityönä noin 1600 tuntia ja näin syntyneet tekstimuotoiset litteroinnit kohdistettiin vastaaviin äänitteisiin automaattisilla menetelmillä.
Aineiston ensimmäinen varsinainen versio 1.0 on saatavilla Kielipankin latauspalvelussa, josta luvan saaneet tutkijat ja myöhemmin myös yritykset pääsevät sitä käyttämään. Samaan aineistoon sisältyviä, esimerkiksi automaattisen puheentunnistuksen kehittämistä varten poimittuja osa-aineistoja on lisäksi tarjolla erillisinä paketteina, joiden sisältö ja viittauskäytänteet löytyvät kunkin aineistoversion kuvailutietueesta.
Lahjoita puhetta -aineistokokonaisuutta on tarkoitus myös myöhemmin päivittää ja laajentaa, kun uusia lahjoituksia on kertynyt riittävästi. Uusia versioita tehdään myös sitä mukaa, kun tutkijat tai yritykset jatkavat olemassa olevien äänitteiden litterointia ja muuta annotointia.
Puhelahjat-aineiston käyttäminen on luvanvaraista. Puhelahjat-ryhmän kaikkien osa-aineistojen tutkimuskäyttöä koskee sama lisenssi, johon sisältyy myös aineistokohtaisia tietosuojaehtoja.
Yrityskäytön ohjeet löytyvät omalta sivultaan.
Viimeksi päivitetty: 7.3.2024
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022102122