Resource-specific data protection terms and conditions (seuruu)

Suomeksi

Title of Resource: Follow-up Study of Dialects of Finnish (seuruu)

Metadata: urn:nbn:fi:lb-2014073043
License: urn:nbn:fi:lb-2015041307

This page describes the specific conditions regarding the processing of the personal data in the Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland. 

Controller of the data stored in the Language Bank of Finland 

Institute for the Languages of Finland
Hakaniemenranta 6
00530 Helsinki

Data Protection Officer of the Institute for the Languages of Finland

Email: maija.sutinen@kotus.fi

The Language Bank of Finland is a Data Processor on behalf of the Controller.

For further details on the data protection of the resources in the Language Bank of Finland, please contact the helpdesk of the Language Bank. 

Description of the personal data 

Types of personal data in the resource 

The Resource consists of

  • audio recordings of interviews, the original content of which has not been edited,
  • transcripts of the speech content and other types of mark-up that are required for research purposes
  • background information provided by the interviewees (sex, date or year of birth, place of birth, place of residence at the time of the interview).

A large part of the recordings represent thematic interviews, the topics of which follow the life stages of the interviewees and local issues. At the beginning of the recordings, the full name of the interviewee and the place where the interview was conducted are usually mentioned. The identity of the interviewee may also be revealed indirectly on the basis of their voice, the things mentioned in the interview and the background information included in the Resource, especially in cases of small rural towns.

Efforts have not been made in order to completely remove the identifiers from the recordings, as this would hinder the primary uses of the material, i.e., comparing and monitoring dialects. The recordings cannot be edited to the extent of making them completely anonymous without also making it impossible to carry out the intended research in an appropriate way.

The interviewees were verbally informed that the data collected from them would be used for research and that the interviews would also be archived for later research use. However, no comprehensive documents exist about the permissions asked from the interviewees. Some of the researchers and students who acted as interviewers were instructed to avoid emphasizing dialect or language research when informing their interviewees, in order not to affect their speech and language use. The interviewees were also told that they might be asked to participate in further interviews. Participation was voluntary in all cases.

Categories of data subjects 

The data subjects were native speakers of Finnish who represented different ages and ten different rural municipalities in Finland (Alastaro, Alatornio, Artjärvi, Eurajoki, Kauhava, Lapinlahti, Liperi, Pälkäne, Savitaipale, Sotkamo) and volunteered to be interviewed one or more times. Two rounds of interviews were completed partly with the same subjects. The first round of interviews started in 1989 and the second round lasted from 1999 to 2007.

The aim of collecting the data was to study, compare and monitor dialects and their changes over time, both on an individual level and between groups of speakers and localities. Even later, further rounds of interviews, partly with the same interviewees, have been carried out in the same municipalities by new research projects at approximately 10-year intervals.

Data protection terms and conditions 

In these data protection terms and conditions, End-User means the party acting as the Controller for the Resource received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the Language Bank user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally. 

The End-User understands that when receiving the Resources, it becomes a controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data. 

The purpose of use of personal data 

  • The Resource may only be used for the research purpose described in the research plan approved by the Controller.

Location and transfer of the personal data 

  • Personal data may not be processed outside the European Economic Area. 

  • In order to process the Resource outside the European Economic Area, a license may be granted only on the basis of a specific application. In that case, please contact the Language Bank of Finland. 

Publish a link to your Privacy Notice

When applying for access to this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice. The link can be updated at a later time by using this form. This information will be published on the website of the Language Bank of Finland. 

Updates 

This page was last updated on 19.7.2024.

Persistent identifier of this page: urn:nbn:fi:lb-2021062247

Aineistokohtaiset tietosuojaehdot (seuruu)

In English

Aineiston nimi: Murteenseuruukorpus (seuruu)

Aineiston kuvailutiedot: urn:nbn:fi:lb-2014073043
Lisenssi: urn:nbn:fi:lb-2015041317

Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.

Kielipankkiin talletetun aineiston rekisterinpitäjä

Kotimaisten kielten keskus
Hakaniemenranta 6
00530 Helsinki

Kotimaisten kielten keskuksen tietosuojavastaava

Sähköpostiosoite: maija.sutinen@kotus.fi

Kielipankki toimii tämän Aineiston osalta henkilötietojen käsittelijänä.

Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.

Henkilötietojen kuvaus

Aineiston sisältämien henkilötietojen tyypit

Aineisto koostuu

  • haastatteluäänitteistä, joiden alkuperäistä sisältöä ei ole muokattu,
  • puheesta tehdyistä tekstimuotoisista litteraateista ja muusta tutkimuksen kannalta tarpeellisesta merkkauksesta sekä
  • haastateltavien erikseen antamista taustatiedoista (sukupuoli, syntymäaika tai syntymävuosi, syntymäpaikka, asuinpaikka haastatteluhetkellä)

Suuri osa tallenteista on teemahaastatteluja, joiden puheenaiheet myötäilevät haastateltavien elämänvaiheita ja paikkakunnan asioita. Äänitteiden alussa mainitaan useimmiten haastateltavan koko nimi ja paikkakunta, jolla haastattelu on tehty. Haastateltavan henkilöllisyys saattaa käydä ilmi myös muista kohdista epäsuorasti hänen oman puheäänensä, haastattelussa mainittujen asioiden ja muiden Aineistoon sisältyvien tietojen perusteella etenkin, kun kyseessä ovat olleet pienehköt maaseutupaikkakunnat.

Äänitteissä esiintyviä tunnisteita ei ole pyritty poistamaan tai häivyttämään, koska tämä haittaisi Aineiston pääasiallista käyttöä murteiden vertailuun ja seurantaan. Äänitteitä ei voida muokata täysin tunnisteettomiksi siten, että tutkimuksen toteuttaminen olisi edelleen mahdollista tarkoituksenmukaisella tavalla.

Haastateltaville on suullisesti kerrottu, että heiltä kerättyjä tietoja tullaan käyttämään tutkimukseen ja että haastattelut myös arkistoidaan myöhempää tutkimuskäyttöä varten. Kattavia dokumentteja ei varhaisemmista äänitteistä kuitenkaan ole. Toisinaan haastattelijoina toimineet tutkijat ja opiskelijat ovat myös saaneet ohjeekseen välttää korostamasta murre- tai kielentutkimusta, jottei taustoitus vaikuttaisi haastateltavien puheeseen ja kielenkäyttöön. Haastateltaville kerrottiin lisäksi, että heitä voitaisiin pyytää osallistumaan myös uusiin haastattelukierroksiin. Osallistuminen oli kuitenkin kaikissa tapauksissa vapaaehtoista.

Rekisteröityjen ryhmät

Rekisteröidyt ovat kymmeneltä eri maaseutupaikkakunnalta (Alastaro, Alatornio, Artjärvi, Eurajoki, Kauhava, Lapinlahti, Liperi, Pälkäne, Savitaipale, Sotkamo) kotoisin olevia eri-ikäisiä suomalaisia, jotka suostuivat vapaaehtoisesti haastateltaviksi. Ensimmäinen haastattelukierros aloitettiin vuonna 1989 ja toinen kierros kesti vuodesta 1999 vuoteen 2007.

Aineiston keräämisen tavoitteena on ollut, että murteita ja niiden muuttumista ajan mittaan voitaisiin tutkia, vertailla ja seurata sekä yksilötasolla että puhujaryhmien ja paikkakuntien välillä. Samoilla paikkakunnilla on uusina tutkimushankkeina toteutettu haastattelukierroksia osaksi samojen tutkittavien kanssa vielä myöhemminkin noin 10 vuoden välein.

Aineistoon liittyvät erityiset tietosuojaehdot

Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.

Käyttäjä ymmärtää, että aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.

Henkilötietojen käyttötarkoitus

  • Aineistoa saa käyttää ainoastaan Rekisterinpitäjän hyväksymässä tutkimussuunnitelmassa kuvattuun kielitieteelliseen tutkimustarkoitukseen.

Henkilötietojen sijainti

  • Henkilötietoja ei saa käsitellä Euroopan talousalueen ulkopuolella.
    Aineiston voi saada käsiteltäväksi Euroopan talousalueen ulkopuolella vain erillisestä hakemuksesta. Ota siinä tapauksessa yhteyttä Kielipankkiin.

Julkaise linkki omaan tietosuojailmoitukseen

Kun haet käyttöoikeutta tähän Aineistoon, ilmoita oman hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille. Linkkiä voi tarvittaessa päivittää myöhemmin tällä lomakkeella. Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.

Päivitykset

Tätä sivua on viimeksi päivitetty 19.7.2024.

 

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2021062248

Aineiston nimi: Corpus of Age-related Voice Disguise (AVOID)

Aineiston pysyvä tunniste

http://urn.fi/urn:nbn:fi:lb-2018060621

Henkilötietoja sisältävän aineiston käsittelyperuste

Henkilötietojen käsittelyn perusteena on tutkittavien antama suostumus. Tutkittavat saivat kirjallista tietoa tutkimuksesta (ks. liite 1) ja siihen liittyvästä henkilötietojen käsittelystä sekä allekirjoittivat henkilötietojen käsittelyä koskevan suostumuksen (ks. liite 2).

Rekisterinpitäjät

Tomi Kinnunen ja Rosa González Hautamäki

Rekisterinpitäjän yhteyshenkilö(t)

Tomi Kinnunen ja Rosa González Hautamäki, Itä-Suomen yliopisto

Aineiston käsittely

Itä-Suomen yliopistossa aineistoa käsittelevät seuraavat tutkijat: Rosa González Hautamäki, Md Sahidullah, Ville Hautamäki, Maria Bentz, Stefan Werner ja Tomi Kinnunen. Lisäksi aineistoon voi olla tilapäinen pääsy opiskelijalla, jota  henkilökohtaisesti ohjaa joku edellä mainituista.

Rekisterinpitäjä on sopinut FIN-CLARINin Kielipankkia hallinnoivan Helsingin yliopiston kanssa aineiston tallentamisesta. Helsingin yliopisto toimii aineiston käsittelijänä.

Aineiston luovutusperiaatteet ja käyttöehdot

Aineisto on saatavilla Helsingin yliopiston hallinnoiman Kielipankin kautta. Aineistoa luovutetaan edelleen ainoastaan niiden tutkijoiden käyttöön, jotka ovat esittäneet hyväksyttävän tutkimussuunnitelman ja joille rekisterinpitäjä (tai rekisterinpitäjän määräämä yhteyshenkilö) on myöntänyt määräaikaisen henkilökohtaisen käyttöoikeuden. Käyttöoikeushakemuksen yhteydessä hakijan on hyväksyttävä käyttöehdot.

Kun aineisto on julkaistu Kielipankissa, sen käyttöehdot kuvataan erillisellä lisenssisivulla, johon löytyy linkki aineiston kuvailutiedoista sekä Kielipankin aineistoluettelon Lisenssi-sarakkeesta.

Kuvaus aineiston sisältämistä henkilötietoryhmistä

Aineisto sisältää 60 aikuiselta henkilöltä äänitettyjä puhenäytteitä. Puhujien tehtävänä on ollut lukea annetut suomen- ja englanninkieliset tekstit useita kertoja ääneen useilla eri tavoilla: joko normaalilla äänellään tai siten, että he pyrkivät kuulostamaan joko lapselta tai vanhukselta. Teksteinä oli kaksi suomenkielistä tarinaa (Sateenkaaritarina, Pohjantuuli ja aurinko) sekä kaksi englanninkielistä virkettä. Kukin puhuja osallistui äänitykseen kaksi kertaa, joista kummallakin kerralla suoritettiin samat ääneenlukutehtävät.

Ääni- tai videomuotoista aineistoa ei ole mahdollista käsitellä tunnisteettomaksi niin, että se kuitenkin säilyisi tutkimuksen kannalta käyttökelpoisena. Puhujat voi olla mahdollista tunnistaa äänensä perusteella, mutta arkistoitavissa äänitteissä ei suoraan mainita esimerkiksi puhujien nimiä tai muita tunnistetietoja.

Äänitteiden lisäksi aineiston mukana on tallennettu kunkin puhujan ikä äänityshetkellä sekä sukupuoli. Aineiston käyttötarkoituksen kannalta kyseisten tietojen pitkäaikainen säilyttäminen on välttämätöntä.

Riskiarvio

24.9.2018 tehdyn arvion perusteella henkilötietojen mahdolliseen väärinkäyttöön liittyvät riskit on arvioitu pieniksi.

Suojatoimet

Aineiston käsittelyssä noudatetaan Kielipankin yleisiä tietosuojakäytänteitä.

Aineiston julkiset kuvailutiedot on anonymisoitu. Tiedostojen ja hakemistojen nimissä tutkittaviin viitataan koodeilla. Koodiavain on rekisterinpitäjän (yhteyshenkilön) hallussa ja sitä säilytetään erillään varsinaisesta aineistosta.

Ainoastaan tässä dokumentissa mainituilla aineiston käsittelijöillä sekä määräaikaisen henkilökohtaisen käyttöoikeuden saaneilla tutkijoilla on pääsy aineiston sisältämiin puheäänitteisiin ja muihin tunnisteellisiin tietoihin. Pääsy verkkopalvelussa olevaan aineistoon edellyttää tunnistautumista. Aineiston henkilökohtaisen käyttöoikeuden saaneilla tutkijoilla on oikeus käsitellä aineistoa vain käyttöoikeushakemuksessa mainitsemaansa tutkimustarkoitukseen. Jokainen aineistoa käsittelevä on velvollinen noudattamaan sekä Kielipankin yleisiä että aineistokohtaisia käyttöehtoja.

Päivitykset

Tämä dokumentti on luotu 24.9.2018 ja sitä voidaan tarvittaessa päivittää.

Liitteet:

Tutkittaville annettu tutkimusta koskeva informaatio
Tutkittavilta pyydetyn alkuperäisen suostumuksen tekstisisältö (näyte)


Liite 1:

Tutkittaville annettu tutkimusta koskeva informaatio

(Kopio alkuperäisen, tutkittaville annetun tiedotteen tekstisisällöstä)

Sinä olet osallistumassa muokatun puheen datan keräykseen, jonka järjestää tietojenkäsittelytiede, yleisenkielittiede, ja kieliteknologia, Itä-Suomen yliopistosta.

Informaatio tutkimuksesta

Keräämme puhetiedostoja siitä, miten koehenkilö pystyy muuntelemaan ääntään. Tämä kerätty tutkimusmateriaali on hyödyllinen tutkittaessa ääneen perustuvaa tunnistautumista.

Tässä kokeessa sinua pyydetään puhumaan ja lukemaan lauseita omalla äänelläsi ja sitten puhumaan muuntelemalla ääntäsi, jotta kuulostaisit kokonaan eri henkilöltä tai henkilöhahmolta. Äänesi nauhoitetaan mikrofonilla ja älypuhelimilla. Keräämme myös äänihuulten toimintaa elektroglottografin (EGG) kanssa. Tällä laitteella kirjataan äänihuulten värähtelyjen muotoa äänentuoton aikana niin, ettei koehenkilöön kohdisteta mitään invasiivista. Tässä metodissa käytetään elektrodipareja, jotka kiinnitetään koehenkilön kaulaan. EGG:n käyttö on todettu turvalliseksi eikä ole mitään tunnettuja riskejä sen käytön suhteen. 

Yksi äänitystuokio kestää alle 45 minuuttia. Sinua pyydetään osallistumaan ainakin kahteen sessioon. Osallistumisesi tähän tutkimukseen on täysin vapaaehtoista. Jos päätät osallistua ja muutat mielesi myöhemmin, voit peruuttaa osallistumisesi ilman sanktiota milloin vain.

Henkilökohtainen tieto, jota keräämme tutkimuksessamme, on täysin luottamuksellista. Yksityisyyttäsi varjellaan kaikessa tutkimuksesta julkaistavassa materiaalissa. Tässä kokeessa kerätty materiaali säilytetään käytettäväksi myös tulevissa tutkimuksissa.

 


Liite 2:

Tutkittavilta pyydetyn alkuperäisen suostumuksen tekstisisältö (näyte)

Annan suostumukseni siihen, että puheestani tehtyä äänitallennetta voidaan käyttää tutkimusaineistona ja tiedeyhteisön sisäisissä tilaisuuksissa esittelymateriaalina. Aineistoa käsitellään nimettömänä, toisin sanoen tutkimukseen osallistuvien tietosuoja turvataan muuttamalla nimet ja muut tunnistamisen mahdollistavat tiedot julkaistavassa tutkimusmateriaalissa. Aineisto saadaan arkistoida riittävän tietoturvan tason tarjoavaan tieteellisen aineiston arkistoon.

Paikka ja päiväys:

_________________________________________   ____  /  ____  / ___________

__________________________________

Allekirjoitus

Nimen selvennys:

Tätä lupaa allekirjoitetaan kahtena kappaleena, joista toinen jää tutkittavalle. Tämä suostumus voidaan peruuttaa ilmoittamalla asiasta tutkijalle.

 

Suomeksi

Data protection terms and conditions (DSPCON)

Title of Resource: Aalto University DSP Course Conversation Corpus 2013- (DSPCON)

Metadata: urn:nbn:fi:lb-2015101901
License: urn:nbn:fi:lb-2016112312

This page describes the specific conditions regarding the processing of the personal data in this Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland.

Controller of the data stored in the Language Bank of Finland

University of Helsinki
PO Box 3
00014 University of Helsinki
Phone: 02941 911

For further details on the data protection of the resources in the Language Bank of Finland, please contact FIN-CLARIN helpdesk.

Data Protection Officer of the University of Helsinki

Email: tietosuoja@helsinki.fi

Description of the personal data

Types of personal data in the Resource

This information is currently being updated. Please check the metadata of the Resource (see the link on top of this page).

Categories of data subjects

This information is currently being updated. Please check the metadata of the Resource (see the link on top of this page).

Data protection terms and conditions for this Resource

In these data protection terms and conditions, End-User means the party acting as the Controller for the Resources received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the CLARIN service user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally.

The End-User understands that when receiving the Resource, it becomes a Controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data.

The purpose of use of personal data

  • The Resource may only be used for non-commercial research or teaching purposes.

Location and transfer of the personal data (in Finnish only)

  • Personal data may not be processed outside the European Economic Area.

In order to process the Resource outside the European Economic Area, a license may be granted only on the basis of a specific application. In that case, please contact the Language Bank of Finland.

Publish a link to your Privacy Notice

When you start using this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice by using this form. This information will be published on the website of the Language Bank of Finland.

Updates

This page was last updated on 24.6.2021.

 

Persistent identifier of this page: urn:nbn:fi:lb-2021062221

Aineistokohtaiset tietosuojaehdot (DSPCON)

Aineiston nimi: Aalto-yliopiston DSP-kurssin keskustelukorpus 2013- (DSPCON)

Aineiston kuvailutiedot: urn:nbn:fi:lb-2015101901
Lisenssi: urn:nbn:fi:lb-2016112312

Tämä Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.

Kielipankkiin talletetun aineiston rekisterinpitäjä

Helsingin yliopisto
PL 3
00014 Helsingin yliopisto
Puhelin: 02941 911

Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.

Helsingin yliopiston tietosuojavastaava

Sähköpostiosoite: tietosuoja@helsinki.fi

Henkilötietojen kuvaus

Aineiston sisältämien henkilötietojen tyypit

Aineisto koostuu opiskelijoiden itse äänittämistä lyhyistä ja vapaamuotoisista keskusteluista toisen saman kurssin osallistujan kanssa. Opiskelijat ovat itse litteroineet pienen osan omista puheenvuoroistaan. Äänitykset on tehty Aalto-yliopistossa pidettyyn kurssiin liittyvänä harjoitustyönä. Opiskelijoille on kerrottu, että aineisto tullaan tallentamaan Kielipankkiin. Opiskelijoiden nimiä ei ole tallennettu aineistoon.

Aineisto on kerätty erityisesti automaattisen puheentunnistuksen kehittämistä varten, ja tähän tarkoitukseen tarvitaan mahdollisimman paljon luonnollista puheaineistoa, josta tarkka sanallinen sisältö on tiedossa ainakin jostakin aineiston osasta. Tästä syystä myös tekstimuotoiset litteraatit saattavat sisältää suoria tai epäsuoria tunnisteita, koska opiskelijoiden tehtävänä on ollut litteroida puhe mahdollisimman tarkasti. Aineiston koon vuoksi sen kattava tarkistaminen ei ole ollut jälkikäteen mahdollista.

Rekisteröityjen ryhmät

Tiedostojen ja hakemistojen nimissä ja aineistosta tehdyissä tekstimuotoisissa litteraateissa tutkittaviin viitataan koodeilla. Opiskelijoiden nimet on poistettu jo tallennusvaiheessa. Aineiston julkiset kuvailutiedot on anonymisoitu.

Aineistoon liittyvät erityiset tietosuojaehdot

Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan Aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja Aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.

Käyttäjä ymmärtää, että Aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.

Henkilötietojen käyttötarkoitus

  • Aineistoa saa käyttää ainoastaan ei-kaupalliseen tutkimus- tai opetustarkoitukseen.

Henkilötietojen sijainti

  • Aineistoa ei saa käsitellä Euroopan talousalueen ulkopuolella.

Aineiston voi saada käsiteltäväksi Euroopan talousalueen ulkopuolella vain erillisestä hakemuksesta. Ota siinä tapauksessa yhteyttä Kielipankkiin.

Julkaise linkki omaan tietosuojailmoitukseen

Kun ryhdyt käyttämään tätä Aineistoa, ilmoita oman hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille tällä lomakkeella. Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.

Päivitykset

Tätä sivua on viimeksi päivitetty 24.6.2021.

 

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-202106222

Suomeksi

Data protection terms and conditions (aku-egg)

Title of Resource: Speech and EGG (Electroglottography) Simultaneous Recordings (aku-egg)

Metadata: urn:nbn:fi:lb-2020112923
License: urn:nbn:fi:lb-2015041301

This page describes the specific conditions regarding the processing of the personal data in this Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland.

Controller of the data stored in the Language Bank of Finland

University of Helsinki
PO Box 3
00014 University of Helsinki
Phone: 02941 911

For further details on the data protection of the resources in the Language Bank of Finland, please contact FIN-CLARIN helpdesk.

Data Protection Officer of the University of Helsinki

Email: tietosuoja@helsinki.fi

Description of the personal data

Types of personal data in the Resource

The Resource contains brief speech samples (individual words, isolated vowels and some read-aloud text about weather phenomena) from individual speakers and the EGG signal that was registered simultaneously from them. The recordings were made in acoustically high quality conditions. It may be possible to identify individual speakers on the basis of their voice, but apart from the speech signals, he Resource does not contain any other identifying information.

Categories of data subjects

The participants were 12 native Finnish speaking adult volunteers (6 male, 6 female).

Data protection terms and conditions for this Resource

In these data protection terms and conditions, End-User means the party acting as the Controller for the Resource received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the CLARIN service user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally.

The End-User understands that when receiving the Resource, it becomes a Controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data.

The purpose of use of personal data

  • The Resource may only be used for non-commercial research or teaching purposes.

Location and transfer of the personal data

  • Personal data may not be processed outside the European Economic Area.

In order to process the Resource outside the European Economic Area, a license may be granted only on the basis of a specific application. In that case, please contact the Language Bank of Finland.

Publish a link to your Privacy Notice

When you start using this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice by using this form. This information will be published on the website of the Language Bank of Finland.

Updates

This page was last updated on 24.6.2021.

 

Persistent identifier of this page: urn:nbn:fi:lb-2021062229

In English

Aineistokohtaiset tietosuojaehdot (aku-egg)

Aineiston nimi: Puheen ja EGG:n samanaikaiset tallenteet

Aineiston kuvailutiedot: urn:nbn:fi:lb-2020112923
Lisenssi: urn:nbn:fi:lb-2015041301

Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.

Kielipankkiin talletetun aineiston rekisterinpitäjä

Helsingin yliopisto
PL 3
00014 Helsingin yliopisto
Puhelin: 02941 911

Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.

Helsingin yliopiston tietosuojavastaava

Sähköpostiosoite: tietosuoja@helsinki.fi

Henkilötietojen kuvaus

Aineiston sisältämien henkilötietojen tyypit

Aineisto sisältää lyhyitä puhenäytteitä (irrallisina äännettyjä sanoja ja vokaaleja sekä ääneen luettua sääaiheista tekstiä) yksittäisiltä puhujilta sekä heiltä samanaikaisesti tallennettua elektroglottografiasignaalia (EGG). Yksittäisiä puhujia saattaa olla mahdollista tunnistaa heidän äänensä perusteella, mutta Aineisto ei sisällä muita heitä koskevia tunnistetietoja.

Rekisteröityjen ryhmät

Tutkimukseen osallistuneet puhujat olivat aikuisia, äidinkielenään suomea puhuvia vapaaehtoisia henkilöitä. Puhujia oli yhteensä 12 (6 naista, 6 miestä).

Aineistoon liittyvät erityiset tietosuojaehdot

Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.

Käyttäjä ymmärtää, että aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.

Henkilötietojen käyttötarkoitus

  • Aineistoa saa käyttää ainoastaan ei-kaupalliseen tutkimus- tai opetustarkoitukseen.

Henkilötietojen sijainti

  • Aineistoa ei saa käsitellä Euroopan talousalueen ulkopuolella.

Aineiston voi saada käsiteltäväksi Euroopan talousalueen ulkopuolella vain erillisestä hakemuksesta. Ota siinä tapauksessa yhteyttä Kielipankkiin.

Julkaise linkki omaan tietosuojailmoitukseen

Kun ryhdyt käyttämään tätä Aineistoa, ilmoita hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille tällä lomakkeella. Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.

Päivitykset

Tätä sivua on viimeksi päivitetty 24.6.2021.

 

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2021062230

Aineistokohtaiset tietosuojaehdot (puhelahjat)

In English

Aineiston nimi: Lahjoita puhetta -aineisto (puhelahjat) 

Aineiston kuvailutiedot: urn:nbn:fi:lb-2020090321 
Lisenssi: urn:nbn:fi:lb-2022020221 

Tämä Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin. 

Kielipankkiin talletetun aineiston rekisterinpitäjä 

Helsingin yliopisto 
PL 3 
00014 Helsingin yliopisto 
Puhelin: 02941 911 

Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta. 

Helsingin yliopiston tietosuojavastaava 

Sähköpostiosoite: tietosuoja@helsinki.fi 

Henkilötietojen kuvaus 

Aineiston sisältämien henkilötietojen tyypit 

Alkuperäinen Aineisto koostuu puheäänitteistä, äänitteiden tallennukseen liittyvistä teknisistä oheistiedoista sekä puhettaan lahjoittaneiden henkilöiden vapaaehtoisesti antamista taustatiedoista. Kuhunkin äänitallenteeseen voi liittyä myös puheen sanallisen sisällön tekstimuotoinen kuvaus eli litteraatti sekä muita kuvauksia ja merkkauksia, joita on tuotettu käsin tai koneellisesti. 

Aineistoon kuuluvat äänitteet ovat alkuperäisen sisältönsä osalta muokkaamattomia, vaikka äänitiedostojen tallennusformaatti saattaa käytännön syistä vaihdella. Joissakin tapauksissa puhujan henkilöllisyys voi käydä ilmi joko suoraan tai epäsuorasti esimerkiksi hänen oman puheäänensä tai äänitteessä mainittujen asioiden perusteella. Aineistoa ei kuitenkaan saa käyttää puhujien henkilöllisyyden selvittämiseen.

Äänitteiden oheistietoihin sisältyvät  

  • puheen lahjoittajan käyttämä käyttöjärjestelmä ja selainversio,  
  • äänitteen tekninen tarkkuus 
  • äänitteen kesto  
  • äänityksen tarkka ajankohta 
  • teeman ja aiheen numerot, ts. tiedot lahjoittajalle annetuista virikkeistä, esimerkiksi kuvista, videoista ja ohjeteksteistä, joiden kohdalla kyseinen puhetallenne syntyi.

Tekniset oheistiedot on tallennettu Aineistoon karkealla tasolla siten, että laitetietojen perusteella ei voi selvittää tallenteen tekijän tai laitteen käyttäjän henkilöllisyyttä.

Puheen lahjoittajien vapaaehtoisesti antamiin taustatietoihin kuuluu seuraavia tietoja:  

  • puhujan oma käsitys edustamastaan murrealueesta (suljettu joukko karkeasti määriteltyjä vaihtoehtoja kuten esim. Uusimaa, Etelä-Savo, Satakunta jne.) 
  • puhujan sukupuoli
  • äidinkieli/-kielet 
  • ikäryhmä (ryhmiteltynä 10 vuoden tarkkuudella) 
  • asuinpaikka (vapaatekstinä) 
  • syntymäpaikka (vapaatekstinä), 
  • ammatti (vapaatekstinä) 
  • koulutustaso (suljetusta listasta valittu vaihtoehto).

Taustatietojen oikeellisuutta ei ole mahdollista jälkikäteen tarkistaa. Puheen lahjoittajat ovat voineet halutessaan jättää taustatietokysymyksiä väliin tai he ovat saattaneet antaa niihin vääriä tietoja. Vapaatekstinä kirjoitettavat vastaukset on voinut antaa haluamallaan tarkkuudella. Jos puhetta on lahjoitettu samalla laitteella useita kertoja, lahjoittaja on voinut antaa samoihin taustatietokysymyksiin useita erilaisia vastauksia.

Rekisteröityjen ryhmät 

Rekisteröidyt ovat Lahjoita puhetta –kampanjaan osallistuneita henkilöitä, jotka ovat vapaaehtoisesti lahjoittaneet puhettaan ja valitsemiaan taustatietoja. 

Aineistoon liittyvät erityiset tietosuojaehdot 

Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan Aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja Aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti. 

Käyttäjä ymmärtää, että Aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä. 

Henkilötietojen käyttötarkoitus 

  • Aineistoa saa käyttää ainoastaan Rekisterinpitäjän hyväksymässä tutkimussuunnitelmassa kuvattuun tutkimustarkoitukseen.

Henkilötietojen sijainti 

  • Aineistoa ei saa käsitellä Euroopan talousalueen ulkopuolella.
  • Aineiston voi saada käsiteltäväksi Euroopan talousalueen ulkopuolella vain erillisestä hakemuksesta. Ota siinä tapauksessa yhteyttä Kielipankkiin.
  • Jos Käyttäjä tai Käyttäjän alihankkija tai palveluntarjoaja käsittelee henkilötietoja Euroopan talousalueen ulkopuolella, Kielipankki ja Käyttäjä toteuttavat yleisen tietosuoja-asetuksen V luvun edellyttämät suojatoimet ennen Aineiston siirtämistä Käyttäjälle. Kielipankilla on oikeus pidättäytyä Aineiston siirtämisestä käsiteltäväksi Euroopan talousalueen ulkopuolella, mikäli se katsoo, että Aineiston siirtäminen tietosuoja-asetuksen V lukua noudattaen ei ole kohtuudella mahdollista. 

Muut henkilötietojen käsittelyyn liittyvät ehdot 

  • Aineiston luovuttaminen tai siihen pääsyn antaminen kolmannelle osapuolelle sekä julkaiseminen on kielletty. Käyttäjä saa kuitenkin siirtää aineistoa henkilötietojen käsittelijöinä toimiville alihankkijoilleen tai palveluntarjoajilleen tämän sopimuksen mukaisiin tarkoituksiin. Käsittelijöitä käytettäessä on noudatettava EU:n yleisen tietosuoja-asetuksen vaatimuksia henkilötietojen käsittelijöistä, ja niiden kanssa on tehtävä asetuksen 28 artiklan mukainen sopimus henkilötietojen käsittelystä. 

  • Aineiston käsittely kuluttajille suunnatussa pilvipalvelussa on kielletty.

  • Aineistoa ei saa käyttää puheen lahjoittajien henkilöllisyyden tunnistamiseen. Aineistoon sisältyviin äänitteisiin ei saa yhdistää muualta saatavilla olevia henkilötietoja, eikä Aineistoon sisältyviä äänitteitä saa verrata muualta saatavilla oleviin äänitteisiin sen selvittämiseksi, onko kyse samasta puhujasta.

  • Käyttäjän on ilmoitettava Kielipankille ilman aiheetonta viivytystä, mikäli Aineistoon kohdistuu henkilötietojen tietoturvaloukkaus, jonka seurauksena on siirrettyjen, tallennettujen tai muuten käsiteltyjen henkilötietojen vahingossa tapahtuva tai lainvastainen tuhoaminen, häviäminen, muuttaminen, luvaton luovuttaminen taikka pääsy tietoihin. 

Ilmoitusvelvollisuus 

Käyttäjän on ilmoitettava viivytyksettä Kielipankille, jos se havaitsee tai epäilee, että Aineisto sisältää: 

  1. luvattomia, virheellisiä, tarpeettomia tai vanhentuneita henkilötietoja (esimerkiksi suoria tunnistetietoja kuten nimiä ja yhteystietoja, henkilön yksityiselämää koskevia tietoja, juoruja tai jotakuta herjaavaa puhetta), 
  2. luvattomia tekijänoikeuden tai sen lähioikeuksien suojaamien teosten tai muiden kohteiden kappaleita, 
  3. liikesalaisuuksia, 
  4. tietoja, joiden esittäminen ilmeisesti täyttäisi rikoslain yksityisyyden, rauhan ja kunnian loukkaamisen (24 luku), kiihottamisen kansanryhmää vastaan (11:10 – 10 a) tai muun rikoksen tunnusmerkistön, tai 
  5. äänitteitä, joissa puhetta on nauhoitettu puhujan tietämättä tai nauhoitus on käynnistetty vahingossa. 

Käyttäjän tulee liittää ilmoitukseen tiedot, joiden avulla Kielipankki voi tunnistaa kyseisen  äänitteen. 

Aineiston päivitykset 

Kielipankki voi tuottaa Aineistosta uusia versioita esimerkiksi sen varmistamiseksi, että tietosuojalainsäädännön mukaiset rekisteröidyn oikeudet toteutetaan ja Aineisto ei sisällä lainvastaista sisältöä. Kun Kielipankki tuottaa Aineistosta uuden version ja ilmoittaa siitä sähköpostitse Käyttäjälle, Käyttäjän on viivytyksettä poistettava vanha versio Aineistosta ja korvattava se uudella. Käyttäjän on toimitettava Kielipankille toimiva ja ajantasainen sähköpostiosoitteensa, johon ilmoitetaan Aineiston päivityksistä. 

Julkaise linkki omaan tietosuojailmoitukseen 

Kun ryhdyt käyttämään tätä Aineistoa, ilmoita oman hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille tällä lomakkeella. Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla. 

Päivitykset 

Tätä sivua on viimeksi päivitetty 21.10.2022. 

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022020222

 

Resource-specific data protection terms and conditions (puhelahjat)

Suomeksi

Title of Resource: Donate Speech Corpus (puhelahjat) 

Metadata: urn:nbn:fi:lb-2020090321 
License: urn:nbn:fi:lb-2022020223 

This page describes the specific conditions regarding the processing of the personal data in the Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland. 

Controller of the data stored in the Language Bank of Finland 

University of Helsinki 
PO Box 3 
00014 University of Helsinki 
Phone: 02941 911 

For further details on the data protection of the resources in the Language Bank of Finland, please contact the helpdesk of the Language Bank. 

Data Protection Officer of the University of Helsinki 

Email: tietosuoja@helsinki.fi 

Description of the personal data 

Types of personal data in the resource 

The original Resource consists of audio recordings of speech, technical metadata regarding the recording process, and answers that were voluntarily given by the speech donors to a set of non-mandatory background questions.  Each piece of recorded audio may also be supplemented with a transcript of the speech content and other descriptions and mark-up that may be created manually or automatically.

The recordings included in the Resource have not been edited with respect to their original content, although the technical format of the audio files may vary due to practical reasons. In some cases, the identity of the speaker may become evident either directly or indirectly, for instance due to their speaking voice or due to some of the content mentioned in the recording. However, the Resource may not be used for identifying speakers.

The technical metadata includes the following types of information:

  • the operating system and browser version that were used by the speech donor 
  • the technical resolution of the audio recording
  • the duration of the recording
  • the precise date and time of the recording
  • the numbers of the theme and topic, i.e., information regarding the stimuli provided to the speech donor, e.g., pictures, videos and instructions at which the speech recording was made.

The technical metadata have been collected and included in the Resource on a coarse level. It is not possible to reveal the identity of the speech donor or the user of the device on the basis of the technical information.

The background details provided by the speech donors include the following:

  • speaker’s own view of the dialect region that they represent (a closed list of coarsely defined alternatives, such as Uusimaa, Etelä-Savo, Satakunta etc.) 
  • sex of the speaker
  • mother tongue(s)
  • age group (in decades)
  • place of residence (free text) 
  • place of birth (free text), 
  • occupation (free text) 
  • level of education (selected from a closed list).

It is not possible to verify the correctness of the background information mentioned above. The speech donors may have chosen to skip background questions or to submit false information. The free text answers could be provided at the desired level of detail. In case speech was donated several times via the same device, the donor may have given several different answers to the same background questions.

Categories of data subjects 

The data subjects are volunteers who participated in the Donate Speech campaign (Lahjoita puhetta) by donating their speech and the background details of their choice.

Data protection terms and conditions 

In these data protection terms and conditions, End-User means the party acting as the Controller for the Resource received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the Language Bank user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally. 

The End-User understands that when receiving the Resources, it becomes a controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data. 

The purpose of use of personal data 

  • The Resource may only be used for the research purpose described in the research plan approved by the Controller.

Location and transfer of the personal data 

  • Personal data may not be processed outside the European Economic Area. 

  • In order to process the Resource outside the European Economic Area, a license may be granted only on the basis of a specific application. In that case, please contact the Language Bank of Finland. 

  • If the End-User processes personal data outside the European Economic Area, the Language Bank and the End-User shall put in place the safeguards required by Chapter V of the GDPR before the disclosure of the Resource to the End-User. The Language Bank has the right to refrain from transferring the Resource for processing outside the European Economic Area if it deems that such transfer in accordance with Chapter V of the GDPR is not possible by reasonable means.

Other conditions for data processing

  • The End-User shall not disclose or provide access to the Resource to any third party. Publication of the Resource is prohibited. Notwithstanding the aforementioned, the End-User may transfer the Resource to its subcontractors or service providers that act as processors of personal data for purposes consistent with this agreement. When employing processors, the End-User shall comply with the requirements of data protection legislation regarding processors of personal data, and conclude an agreement on the processing of personal data in accordance with Article 28 of the GDPR with the processors.

  • The processing of the Resource in cloud-based services aimed at consumers is prohibited.

  • The Resource shall not be used to identify speech donors. Recordings included in the Resource must not be combined with personal data available elsewhere, nor may recordings included in the Resource be compared to recordings available elsewhere to determine whether the speaker is the same person in both.

  • The End-User shall notify the Language Bank without undue delay if the Resource is subjected to a personal data breach which results in the accidental or unlawful destruction, loss, alteration, unauthorised disclosure of, or access to, transferred, stored, or otherwise processed personal data.

Obligation to notify

The End-User shall notify the Language Bank without delay if it identifies or suspect the presence of the following content in the Resource:

  1. Unauthorised, inaccurate, unnecessary or outdated personal data (such as direct identifiers, including names and contact details, information pertaining to the private life of individuals, rumours or defamatory speech),
  2. Unauthorised copies of works or other objects protected by copyright or related rights,
  3. Trade secrets,
  4. Data whose disclosure would constitute an offence against privacy, public peace or personal reputation (Chapter 24 of the Criminal Code of Finland), incitement to hatred or ethnic agitation (Sections 10 and 10a, Chapter 11 of the Criminal Code of Finland) or another offence, or
  5. Recordings where speech has been recorded without the speaker’s knowledge, or the recording has been started by accident.

The notification made by the End-User shall include information that enables the Language Bank to identify the relevant recording.

Updates to the Resource

The Language Bank may produce new versions of the Resource to ensure, for example, that the rights of data subjects in accordance with Data Protection Legislation are fulfilled and that there is no unlawful content in the Resource. When the Language Bank produces a new version of the Resource and notifies the contact person of the End-User by email, the End-User shall, without delay, delete the old version of the Resource and replace it with the new version. The End-User must submit a functional and valid email address to the Language Bank to which notifications of updates to the Resource are to be sent.

Publish a link to your Privacy Notice

When you start using this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice by using this form. This information will be published on the website of the Language Bank of Finland. 

Updates 

This page was last updated on 1.3.2022.

Persistent identifier of this page: urn:nbn:fi:lb-2022020224

 

Improved resource: The University of Helsinki Language Corpus Server (UHLCS) collection

Due to historical reasons, some corpora in the UHLCS collection have suffered from technical issues regarding, e.g., character encodings and file formats. After a complete review of the available UHLCS corpora during the past couple of years, a major part of the issues have now been fixed.

For a listing of all available versions and variants, see the resource group page.

Aineiston perusparannus: Helsingin yliopiston korpuspalvelimen monikielinen aineistokokoelma (UHLCS)

Historiallisista syistä UHLCS-korpuskokoelman joissakin aineistoissa on ollut mm. tiedostomuotoihin ja merkistöihin liittyneitä vikoja, jotka ovat voineet haitata korpusten käyttöä. Parin viime vuoden aikana kaikki saatavilla olevat UHLCS-korpukset on käyty läpi ja nyt suurin osa teknisistä ongelmista on korjattu.

Kaikki UHLCS-kokoelman osakorpukset löytyvät aineistoryhmän sivulta.

New resource: The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, VRT

The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, VRT is available at the download service at Kielipankki. Access to this resource is restricted (apply for access).

Please note that this resource is very large: the total size of all 25 download packages is more than half a terabyte. The downloadable VRT version contains about 22 billion words of text supplemented with the various types of annotations added by the Language Bank. For beginning users, we recommend the previously published Korp version of the same data. For a listing of all available versions and variants, see the resource group page.

The oldest texts from the years 1771-1874 were considered by the Language Bank as copyright-free. A copy of this part is separately available as a downloadable public resource, The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (1771-1874), VRT.

 

 

Uusi aineisto: Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus versio 2, VRT

Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus versio 2, VRT on saatavilla Kielipankin latauspalvelussa. Pääsy aineistoon on luvanvarainen (hae käyttöoikeutta).

Huomaa, että tämä ladattava aineisto on valtavan kokoinen: 25 latauspaketin yhteenlaskettu koko on yli puoli teratavua. Ladattava VRT-versio sisältää yhteensä noin 22 miljardia sanetta tekstiä sekä niihin Kielipankissa lisätyt annotaatiot. Aloitteleville käyttäjille suosittelemme mieluummin saman aineiston Korp-versiota. Listan aineiston kaikista saatavilla olevista versioista löydät aineistoryhmäsivulta.

Aineiston vanhimmat tekstit vuosilta 1771-1874 on Kielipankissa katsottu tekijänoikeusvapaiksi. Tämän osan kopio on erikseen saatavilla julkisesti ladattavana aineistona, Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus versio 2 (1771-1874), VRT.

The Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version

Suomeksi

This corpus contains newspapers and magazines from Finland starting from 1770, compiled by the National Library of Finland.

NB: The Finnish acronym for the corpora The Newspaper and Periodical OCR Corpus of the National Library of Finland used to be ”Digilib”. Currently, however, the acronym ”klk” and the short names klk-fi-1874-dl and klk-fi-1920-dl are recommended instead.

Latest versions/subcorpora:  
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (1771-1874), VRT
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, VRT
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Example queries in Korp
Select the corpus in Korp
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp
The Swedish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp
The Newspaper and Periodical OCR Corpus of the National Library of Finland (1771-1874)
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Newspaper and Periodical OCR Corpus of the National Library of Finland (1875-1920)
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Newspaper and Periodical Corpus of the National Library of Finland, Swedish sub-corpus, 1771–1879, VRT
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Newspaper and Periodical Corpus of the National Library of Finland, Swedish sub-corpus, 1880–1948, scrambled, VRT
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Search for these versions in META-SHARE  

Of this language corpus different versions/subcorpora are published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.

N-grams

Based on the KLK data, word-level collections of uni-, bi- and trigrams have been created and are available for download. These are their own data sets:

The N-grams of the Newspaper and Periodical Corpus of the National Library of Finland

 

Example queries from Korp

 

Concordance view of any form of the word 'sosialismi' in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp
Concordance view of any form of the word ’sosialismi’ in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp

 

Word picture of the word 'sosialismi' in klk-fi-v2-korp
Word picture of the word ’sosialismi’ in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp

 

Trend diagram of all forms of the word 'sosialismi' occurring in klk-fi-v2-korp
Trend diagram of all forms of the word ’sosialismi’ occurring in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp

OCR quality

The corpora consist mainly of digitized versions of texts originally printed on paper. These physical papers have been scanned, and optical character recognition (OCR) was performed on the resulting images. The digitized material spans a long period and contains different kinds of texts, writing styles and fonts. Scanning some parts of the material is more complex than scanning other parts, and the physical condition of the original texts also varies. The OCR techniques used have also varied, and there is the possibility that some of the texts have gone through manual post-correction. This results in some parts of the corpora being of terrible quality while others are of good quality. We have collected a list of publications related to OCR quality and collection processing:

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021092404

Last updated: 19.6.2024

New resource: Finnish News Agency Archive 2022-2023, source

The Finnish News Agency Archive 2022-2023, source is available at the download service at Kielipankki.

More information can be found on the resource group page.

Uusi aineisto: STT:n uutisarkisto 2022-2023, lähdemateriaali

STT:n uutisarkisto 2022-2023, lähdemateriaali on saatavilla Kielipankin latauspalvelussa.

Lisätiedot löytyvät aineistoryhmäsivulta.

Tekijänoikeusvapaa aineisto

In English

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2024061302
Tätä sivua on viimeksi päivitetty: 14.06.2024

Aineisto(t):

  • Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus versio 2 (1771-1874), VRT (URN: urn:nbn:fi:lb-2024060401)

 

Kielipankin arvion mukaan tämä Aineisto on tekijänoikeusvapaata eikä lisenssiä tarvita. Aineiston käyttö ja edelleen välittäminen tapahtuu kuitenkin Käyttäjän omalla vastuulla.

Copyright-free material

Suomeksi

Persistent identifier of this page: urn:nbn:fi:lb-2024061301
This page was last modified: 14.06.2024

Resource(s):

  • The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (1771-1874), VRT (URN: urn:nbn:fi:lb-2024060401)

 

According to the judgment made by the Language Bank of Finland, this Resource is copyright-free and requires no license. However, the use and distribution of the Resource is at the End-User’s own risk and responsibility.

 

 

Tekijänoikeusvapaa aineisto

In English

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-xxxxxxxxxx
Tätä sivua on viimeksi päivitetty: dd.mm.yyyy

Aineisto(t):

 

Kielipankin arvion mukaan tämä Aineisto on tekijänoikeusvapaata eikä lisenssiä tarvita. Aineiston käyttö ja edelleen välittäminen tapahtuu kuitenkin Käyttäjän omalla vastuulla.

Copyright-free material

Suomeksi

Persistent identifier of this page: urn:nbn:fi:lb-xxxxxxxxxx
This page was last modified: dd.mm.yyyy

Resource(s):

 

According to the judgment made by the Language Bank of Finland, this Resource is copyright-free and requires no license. However, the use and distribution of the Resource is at the End-User’s own risk and responsibility.

 

 

Search the Language Bank Portal:
Heidi Niva
Researcher of the Month: Heidi Niva

 

Upcoming events


Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information