The Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version

Suomeksi

This corpus contains newspapers and magazines from Finland starting from 1770, compiled by the National Library of Finland.

NB: The Finnish acronym for the corpora The Newspaper and Periodical OCR Corpus of the National Library of Finland used to be ”Digilib”. Currently, however, the acronym ”klk” and the short names klk-fi-1874-dl and klk-fi-1920-dl are recommended instead.

Latest versions/subcorpora:  
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (1771-1874), VRT
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, VRT
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Example queries in Korp
Select the corpus in Korp
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp
The Swedish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp
The Newspaper and Periodical OCR Corpus of the National Library of Finland (1771-1874)
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Newspaper and Periodical OCR Corpus of the National Library of Finland (1875-1920)
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Newspaper and Periodical Corpus of the National Library of Finland, Swedish sub-corpus, 1771–1879, VRT
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
The Newspaper and Periodical Corpus of the National Library of Finland, Swedish sub-corpus, 1880–1948, scrambled, VRT
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Search for these versions in META-SHARE  

Of this language corpus different versions/subcorpora are published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.

N-grams

Based on the KLK data, word-level collections of uni-, bi- and trigrams have been created and are available for download. These are their own data sets:

The N-grams of the Newspaper and Periodical Corpus of the National Library of Finland

 

Example queries from Korp

 

Concordance view of any form of the word 'sosialismi' in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp
Concordance view of any form of the word ’sosialismi’ in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp

 

Word picture of the word 'sosialismi' in klk-fi-v2-korp
Word picture of the word ’sosialismi’ in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp

 

Trend diagram of all forms of the word 'sosialismi' occurring in klk-fi-v2-korp
Trend diagram of all forms of the word ’sosialismi’ occurring in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp

OCR quality

The corpora consist mainly of digitized versions of texts originally printed on paper. These physical papers have been scanned, and optical character recognition (OCR) was performed on the resulting images. The digitized material spans a long period and contains different kinds of texts, writing styles and fonts. Scanning some parts of the material is more complex than scanning other parts, and the physical condition of the original texts also varies. The OCR techniques used have also varied, and there is the possibility that some of the texts have gone through manual post-correction. This results in some parts of the corpora being of terrible quality while others are of good quality. We have collected a list of publications related to OCR quality and collection processing:

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021092404

Last updated: 19.6.2024

Corpus of Finnish Sign Language

Suomeksi

Current versions of this resource:
Corpus of Finnish Sign Language: elicited narratives, Download version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Corpus of Finnish Sign Language: conversations, Download version
icon-info-circle Metadata and license
icon-exclamation-triangle PRIV: This resource contains personal data, see license.
icon-quote-right Attribution instructions
Apply for access rights

Download the resource

Look for other versions of this resource


Last updated: 5.6.2024

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024060525

Tekstin uudelleenkäyttöklusterit ruotsinkielisessä lehdistössä 1645-1918

In English

Aineiston viimeisimmät versiot:  
Tekstin uudelleenkäyttöklusterit ruotsinkielisessä lehdistössä 1645-1918
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Pian saatavilla
Etsi muut saatavilla olevat versiot  

Aineiston sisältö

Resurssi perustuu Suomen ja Ruotsin kansalliskirjastojen digitoiman ruotsinkielisen sanoma- ja aikakauslehtiaineiston päällekkäisyyksien ja toistojen tutkimukseen. Tarkoituksena oli löytää kaikki yli 300 merkkiä pitkät tekstit tai tekstinpätkät, jotka olivat toistuneet tai kopioitu vähintään kerran. Näitä samankaltaisuuksia tai päällekkäisyyksiä löytyi yli 101 miljoonaa. Kun samoja tekstejä klusteroitiin, klustereita löytyi lähes 22 miljoonaa. Tutkimus kattoi vuodet 1645-1918 alkaen ensimmäisestä Ruotsissa painetusta sanomalehdestä. Tutkimuksessa oli mukana yhteensä 7,5 miljoonaa sivua digitoitua sanomalehtiaineistoa. Edellä mainittujen Suomessa ja Ruotsissa painettujen sanomalehtien lisäksi tietokanta sisältää Pohjois-Amerikassa julkaistuja ruotsinkielisiä maahanmuuttajien sanomalehtiä.

Materiaali on tuotettu hankkeessa ”Informationsflöden över Östersjön: Svenskspråkig press som kulturförmedlare”, jota rahoittaa Suomen ruotsalaisen kirjallisuuden seura (Svenska Litteratursällskapet i Finland). Digitoitu aineisto koottiin marraskuussa 2022.

Kokeile hakukonetta, joka on suunniteltu näiden tekstikokonaisuuksien etsimiseen ja analysointiin.

Lisätietoja sisällöstä ja eri korpusversioita koskevista ehdoista ja edellytyksistä on saatavilla vastaavissa metatietueissa.


 Viimeksi päivitetty: 28.05.2024

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2023092726

Text reuse clusters in the Swedish-language press 1645-1918

Suomeksi

Current versions of this resource:
Text reuse clusters in the Swedish-language press 1645-1918
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Available soon
Look for other versions of this resource

Corpus contents

The resource is based on a study of overlaps and repetitions of texts in the Swedish-language newspaper and magazine material that has been digitised by the national libraries of Finland and Sweden. The idea was to locate all texts or text fragments longer than 300 characters that had been repeated or copied at least once. More than 101 million of these similarities or overlaps were found. When the same texts were clustered together, there were almost 22 million clusters. The study covered the years 1645-1918, starting with the first newspaper printed in Sweden. In total, 7.5 million pages of digitised newspaper material were included in the study. In addition to the aforementioned newspapers printed in Finland and Sweden, the database includes Swedish-language immigrant newspapers published in North America.

The resource was produced by the project ”Informationsflöden över Östersjön: Svenskspråkig press som kulturförmedlare”, funded by Society of Swedish Literature in Finland (Svenska Litteratursällskapet i Finland). The digitised material was compiled in November 2022.

Try out the Search engine designed for searching and analysing these clusters of text reuse.

Further details about the content and the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.


Last updated: 28.05.2024

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023092725

GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

The GiellaLT website contains the technical documentation of the GiellaLT infrastructure, developed and used by Divvun and Giellatekno.

It is an open source website providing analysers and tools for a wide range of languages, as well as a ready-made setup for adding more languages.

 

Testing and enhancement of language models (transducers) from GiellaLT

The Language Bank of Finland is currently in the process of evaluating the state of development of GiellaLT’s analysers for individual languages in relation to text data being annotated for the Korp search engine.

Read more about the details and findings of the evaluation performed by Jack Rueter.

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024050301

Testing and enhancement of language models (transducers) from GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. The web site of GiellaLT offers language models (transducers) for a wide range of languages. Writing documentation for each language repository is an ongoing effort, and part of the development process.

Analyser enhancement

The GiellaLT infrastructure, with its implementation of finite-state tools, allows people working with different languages to make use of technological solutions that, otherwise, might require several years of individual development. It is here that descriptions for many of the Uralic languages have been initialized and developed as both financed projects and the work of language technology enthusiasts.
The GiellaLT infrastructure makes it possible to reuse finite-state descriptions and even encourages it. Thus, contributing to the enhancement of the finite-state tools at GiellaLT, when extending the annotation of corpora on the Language Bank of Finland’s Korp server, is beneficial to the search engine users as well.

On this page, we will evaluate the state of development of analysers for individual languages in relation to text data being annotated for the Korp search engine. This evaluation will therefore be aligned with the annotation of upcoming corpora, such as a new extended version of PaBiVUS (Parallel Biblical Verses for Uralic Studies). The objective is to increase the lemmatization, morphological and syntactic annotation coverage not previously offered for non-majority languages in the parallel corpus. So, here we will provide an illustrative depiction of each individual finite-state description and what steps have been made for improvement. This might be seen as enhanced but not complete coverage of various genre as we go.

The evaluations will tend to illustrate the capacities of the analysers, which do have equivalent generators, but the possible overproductivity of these generators is presently not the focus of these evaluations. In time, attention will be also drawn towards the description of the disambiguation of morphological analyses, which is made possible in the open-source GiellaLT infrastructure. The enhanced descriptions, housed in GiellaLT, will serve as a contribution by the Language Bank of Finland in the shared responsibilities towards improved coverage of lesser described languages and NLP addressing them. Thus, the resulting analysers will available for building within the GiellaLT infrastructure or the UralicNLP python, java and .net libraries available through Github or the Language Bank of Finland.

For more details see the complete description on the analyser enhancement by Jack Rueter.

Evaluations of analysers for individual languages:

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024050302

Nordic Tweet Stream (NTS) haku- ja visualisointikäyttöliittymä

In English

NTS on monikielinen monitorikorpus, joka sisältää maantieteellisesti paikannettuja twiittejä ja niihin liittyviä metatietoja Pohjoismaista. Kaikkiaan se sisältää lähes 74 miljoonaa viestiä sadoilta tuhansilta käyttäjätileiltä Tanskasta, Suomesta, Islannista, Norjasta ja Ruotsista. NTS-tiedot kattavat ajanjakson tammikuun 2013 ja toukokuun 2023 välillä, ja ne kerättiin Twitter Academic API:n avulla, joka on nyt suljettu.

NTS:n tarkoituksena on helpottaa SSH:n perustutkimusta. NTS:ssä on helppokäyttöinen graafinen käyttöliittymä, joka tukee nopeaa tiedonsaantia, jotta tutkijat voivat keskittyä tietojen analysointiin. Tietoaineisto mahdollistaa erityyppiset tutkimukset. Esimerkiksi on mahdollista tutkia julkista keskustelua ja tunteita lähihistorian tapahtumista (esim. COVID-19-pandemia, Nato-jäsenyysprosessi jne.). Tietokokonaisuus on myös resurssi sosiolingvistiselle tutkimukselle ja monikielisyyden tutkijoille.

Tutustu verkkosivustoon.

Lisää tietoa NTS:stä

Jos käytät NTS-käyttöliittymää ja hyödynnät tuloksia julkaisuissasi, mainitse hiljattain julkaistu artikkeli, joka on saatavilla verkossa:
[1] Laitinen, Mikko, Jonas Lundberg, Magnus Levin & Rafael Martins. 2018. The Nordic Tweet Stream: A Dynamic Real-Time Monitor Corpus of Big and Rich Language Data, Proc. of Digital Humanities in the Nordic Countries 3rd Conference, Helsinki, Finland, March 7-9, 2018, CEUR-WS.org, online CEUR-WS.org/Vol-2084/short10.pdf.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024041502

Nordic Tweet Stream (NTS) search & visualization interface

Suomeksi

The NTS is a multilingual monitor corpus of geolocated tweets and associated metadata from the Nordic region. Altogether, it contains nearly 74 million messages from hundreds of thousands of user accounts from Denmark, Finland, Iceland, Norway, and Sweden. The NTS data cover the period between January 2013 and May 2023 and were collected using the Twitter Academic API, which is now closed.

The purpose of the NTS is to facilitate fundamental research in SSH. The NTS comes with an easy-to-use graphic interface that supports quick data access so that researchers can focus on data analysis. The dataset enables various types of research. For instance, it is possible to study public discourses and sentiment concerning events in recent history (e.g., the COVID-19 pandemic, the NATO membership process, etc.). The dataset is also a resource for sociolinguistic research and for scholars of multilingualism.

Please visit the website.

About NTS

If you use the NTS interface and use the findings in your publications, please cite the recent paper, which is available online:
[1] Laitinen, Mikko, Jonas Lundberg, Magnus Levin & Rafael Martins. 2018. The Nordic Tweet Stream: A Dynamic Real-Time Monitor Corpus of Big and Rich Language Data, Proc. of Digital Humanities in the Nordic Countries 3rd Conference, Helsinki, Finland, March 7-9, 2018, CEUR-WS.org, online CEUR-WS.org/Vol-2084/short10.pdf.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024041501

Uralic UD

In English

Aineiston viimeisimmät versiot:  
Uralic UD v2.13, Kielipankin Korp-versio (beta)
icon-info-circleKuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto Korpissa
Etsi muut saatavilla olevat versiot  

Tämän korpuksen uusin versio on annotoitu Universal Dependencies -järjestelmän version 2.13 mukaisesti seuraavien uralilaisten kielten osalta: Erzya, Estonian, Finnish, Hungarian, Karelian, Komi-Permyak, Komi-Zyrian, Livvi, Moksha, North Sami, Skolt Sami, Veps.

Puupankit ja niiden lisenssit:

Erzya (JR); CC BY-SA 4.0
Estonian (EDT, EWT); CC BY-NC-SA 4.0
Finnish (FTB, OOD, PUD, TDT); FTB: CC BY 4.0, other: CC BY-SA 4.0
Hungarian (Szeged); CC BY-NC-SA 3.0
Karelian (KKPP); CC BY-SA 4.0
Komi-Permyak (UH); CC BY-SA 4.0
Komi-Zyrian (IKDP, Lattice); CC BY-SA 4.0
Livvi (KKPP); CC BY-SA 4.0
Moksha (JR); CC BY-SA 4.0
North Sami (Giella); CC BY-SA 4.0
Skolt Sami (Giellagas); CC BY-SA 4.0
Veps (VWT); CC BY-SA 4.0

Universal Dependencies v2.13 License Agreement

 

Viitetiedot

Uralic UD-hankkeet aakkosjärjestyksessä kielen ja osahankkeen mukaan jaoteltuina:

UD_Erzya-JR
Osallistujat: Rueter, Jack; Tyers, Francis; Klementieva, Elena; Erina, Olga; Riabov, Ivan
https://github.com/UniversalDependencies/UD_Erzya-JR/blob/master/README.md

UD_Estonian-EDT
Osallistujat: Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina; Rääbis, Andriela; Torga, Liisi
https://github.com/UniversalDependencies/UD_Estonian-EDT/blob/master/README.md

UD_Estonian-EWT
Osallistujat: Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina; Särg, Dage; Eiche, Sandra; Rääbis, Andriela
https://github.com/UniversalDependencies/UD_Estonian-EWT/blob/master/README.md

UD_Finnish-FTB
Osallistujat: Piitulainen, Jussi; Nurmi, Hanna
https://github.com/UniversalDependencies/UD_Finnish-FTB/blob/master/README.md

UD_Finnish-OOD
Osallistujat: Kanerva, Jenna
https://github.com/UniversalDependencies/UD_Finnish-OOD/blob/master/README.md

UD_Finnish-PUD
Osallistujat: Kanerva, Jenna; Ginter, Filip; Ojala, Stina; Missilä, Anna
https://github.com/UniversalDependencies/UD_Finnish-PUD/blob/master/README.txt

UD_Finnish-TDT
Osallistujat: Ginter, Filip; Kanerva, Jenna; Laippala, Veronika; Miekka, Niko; Missilä, Anna; Ojala, Stina; Pyysalo, Sampo
https://github.com/UniversalDependencies/UD_Finnish-TDT/blob/master/README.txt

UD_Hungarian-Szeged
Osallistujat: Farkas, Richárd; Simkó, Katalin; Szántó, Zsolt; Varga, Viktor; Vincze, Veronika
https://github.com/UniversalDependencies/UD_Hungarian-Szeged/blob/master/README.md

UD_Karelian-KKPP
Osallistujat: Pirinen, Flammie
https://github.com/UniversalDependencies/UD_Karelian-KKPP/blob/master/README.md

UD_Komi_Permyak-UH
Osallistujat: Ponomareva, Larisa; Partanen, Niko; Rueter, Jack; Tyers, Francis
https://github.com/UniversalDependencies/UD_Komi_Permyak-UH/blob/master/README.md

UD_Komi_Zyrian-IKDP
Osallistujat: Partanen, Niko; Blokland, Rogier; Rießler, Michael; Rueter, Jack
https://github.com/UniversalDependencies/UD_Komi_Zyrian-IKDP/blob/master/README.md

UD_Komi_Zyrian-Lattice
Osallistujat: Partanen, Niko; Lim, KyungTae; Poibeau, Thierry; Rueter, Jack
https://github.com/UniversalDependencies/UD_Komi_Zyrian-Lattice/blob/master/README.md

UD_Livvi-KKPP
Osallistujat: Pirinen, Flammie
https://github.com/UniversalDependencies/UD_Livvi-KKPP/blob/master/README.md

UD_Moksha-JR
Osallistujat: Rueter, Jack; Levina, Maria; Kabaeva, Nadezhda; Molnár, Judit; Alnajjar, Khalid
https://github.com/UniversalDependencies/UD_Moksha-JR/blob/master/README.md

UD_North_Sami-Giella
Osallistujat: Trosterud, Trond; Antonsen, Lene; Tyers, Francis
https://github.com/UniversalDependencies/UD_North_Sami-Giella/blob/master/README.md

UD_Skolt_Sami-Giellagas
Osallistujat: Rueter, Jack; Juutinen, Markus; Tyers, Francis; Pirinen, Tommi A; Hämäläinen, Mika
https://github.com/UniversalDependencies/UD_Skolt_Sami-Giellagas/blob/master/README.md

UD_Veps-VWT
Osallistujat: Laan, Käbi
https://github.com/UniversalDependencies/UD_Veps-VWT/blob/master/README.md

 


Viimeksi päivitetty: 09.04.2024

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024040901

DigiTala (2019–2023)

In English

Aineiston viimeisimmät versiot:  
DigiTala: lukioissa ja yliopistossa kerätty S2-aineisto, syksy 2021
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
DigiTala: lukioissa kerätty S2-aineisto, kevät 2021
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
DigiTala: aikuisoppijoilta kerätty ruotsi toisena kielenä -aineisto, kevät 2023
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
DigiTalan YKI-aineisto
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot  

Aineiston sisältö

Tämä resurssi sisältää näytteitä L2-suomea ja L2-ruotsia puhuvilta henkilöiltä, transkriptioita, ihmisten antamia arvioita, oppijoiden vastauksia testin jälkeisiin kyselyihin ja arvioijien vastauksia arvioinnin jälkeisiin kyselyihin. Aineisto on kerätty DigiTala-tutkimushankkeessa (2019-2023) suomea tai ruotsia toisena kielenä oppivilta aikuisopiskelijoilta.

DigiTala-tutkimushankkeen (2019-2023) päätavoitteena on kehittää digitaalinen työkalu, joka käyttää automaattista puheentunnistusta ja automaattista pisteytystä suomen- ja ruotsinkielisten oppijoiden suullisen kielitaidon arviointiin. Työkalu antaa myös automaattista palautetta oppijoiden puhesuorituksista. Hankkeessa kehitetyn digitaalisen työkalun tarkoituksena on mahdollistaa suullisen kielitaidon arviointi korkean tason kielikokeissa. Lisäksi oppilaat voivat harjoitella ääntämistä ja puheen tuottamista vierailla kielillä itsenäisesti koulun ulkopuolella tai ilman opettajan ohjausta kielitunneilla.

Hankkeen aikana kerättiin aineistoa suomea tai ruotsia toisena kielenä opiskelevilta lukiolaisilta ja yliopisto-opiskelijoilta. Lisäksi hankkeessa hyödynnettiin suomen ja ruotsin yleisten kielitutkintojen (Yleiset kielitutkinnot, YKI) puheaineistoa.

Hanke on Suomen Akatemian rahoittama 2019-2023, ja siinä yhdistyvät Helsingin yliopiston (apurahanumero 322619), Aalto-yliopiston (apurahanumero 322625) ja Jyväskylän yliopiston (apurahanumero 322965) asiantuntemus puheen ja kielen prosessoinnissa, kielikasvatuksessa ja fonetiikassa. Nykyinen hanke perustuu pilottihankkeen aikana saatuihin kokemuksiin, ks. DigiTala (2015-2017).

Lisätietoja sisällöstä ja eri korpusversioita koskevista ehdoista ja edellytyksistä löytyy kunkin aineistoversion kuvailutiedoista.

Lisätiedot

DigiTala-hankkeen (2019-2023) verkkosivusto

DigiTala-hankkeen materiaaleja: Tehtävät, kyselylomakkeet ja arviointikriteerit


 Viimeksi päivitetty: 07.03.2024

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024013002

UDPipe

UDPipe is a trainable pipeline for tokenization, tagging, lemmatization and dependency parsing of CoNLL-U files. UDPipe is language-agnostic and can be trained given annotated data in CoNLL-U format. Trained models are provided for nearly all UD treebanks. UDPipe is available as a binary for Linux/Windows/OS X, as a library for C++, Python, Perl, Java, C#, and as a web service. Third-party R CRAN package also exists.

UDPipe is a free software distributed under the Mozilla Public License 2.0 and the linguistic models are free for non-commercial use and distributed under the CC BY-NC-SA license, although for some models the original data used to create the model may impose additional licensing conditions. UDPipe is versioned using Semantic Versioning.

Copyright 2017 by the Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, Czech Republic.

Kielipankki version:  
UDPipe Kielipankki version
icon-info-circle Metadata and license
Access to Puhti
Source version:  
UDPipe
icon-info-circle Metadata and license
Access to GitHub
Look for all versions of this tool in META-SHARE  

For more information on this tool have a look at the UDPipe User’s manual

 

More information on the Kielipankki version:

Using UDPipe on CSC’s servers requires a CSC user account: https://research.csc.fi/accounts-and-projects

UDPipe is installed in CSC’s computing environment (invoke with: module load udpipe) in the following configuration:
Software: UDPipe 1.2.0
Models: 2.3-181115

UDPipe was compiled and installed from Source without local modifications. Please refer to the user’s manual.

The tool was installed using Ansible scripts that can be found here: https://github.com/CSCfi/Kielipankki-palvelut/tree/Dec2018/commandline/roles/udpipe


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024021901

Finnish Dependency Parsing Pipeline

Kielipankki version:  
Turku Dependency Parser Pipeline, Kielipankki version (TDPP-LBF)
icon-info-circle Metadata and license
Access to GitHub
TurkuNLP Finnish Dependency Parser:  
Finnish dependency parser developed by TurkuNLP (TDPP)
icon-info-circle Metadata and license
Access to GitHub
Look for all versions of this tool in META-SHARE  

The Turku Dependency Parser Pipeline, Kielipankki version (TDPP-LBF) is a version of the open source dependency parsing pipeline developed by the University of Turku NLP group for analyzing Finnish text, adapted by Kielipankki – the Language Bank of Finland.

For further information on the source version please visit the project’s website.

 

On Kielipankki’s GitHub repository you can find VRT tools adapted from the original pipeline (vrt-tdp-…):

  • vrt-tdp-alpha-fillup
  • vrt-tdp-alpha-lookup
  • vrt-tdp-alpha-marmot
  • vrt-tdp-alpha-parse

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024021503

DigiTala L2 (2019–2023)

In English

Aineiston viimeisimmät versiot:  
DigiTala: lukioissa ja yliopistossa kerätty S2-aineisto, syksy 2021
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
DigiTala: lukioissa kerätty S2-aineisto, kevät 2021
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
DigiTala: aikuisoppijoilta kerätty ruotsi toisena kielenä -aineisto, kevät 2023
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot  

Lisätiedot löytyvät DigiTalan aineistoryhmäsivulta.


 Viimeksi päivitetty: 07.03.2024

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024021506

DigiTala L2 (2019–2023)

Suomeksi

Current versions of this resource:
DigiTala: L2 Finnish data from upper secondary schools and university, autumn 2021
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
DigiTala: L2 Finnish data from upper secondary schools, spring 2021
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
DigiTala: L2 Swedish data from adult language learners, spring 2023
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Look for other versions of this resource

For further information please see the DigiTala resource group page


Last updated: 07.03.2024

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024021505

DigiTala (2019–2023)

In English

Aineiston viimeisimmät versiot:  
DigiTala: lukioissa ja yliopistossa kerätty S2-aineisto, syksy 2021
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
DigiTala: lukioissa kerätty S2-aineisto, kevät 2021
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
DigiTala: aikuisoppijoilta kerätty ruotsi toisena kielenä -aineisto, kevät 2023
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
DigiTalan YKI-aineisto
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot  

Aineiston sisältö

Tämä resurssi sisältää näytteitä L2-suomea ja L2-ruotsia puhuvilta henkilöiltä, transkriptioita, ihmisten antamia arvioita, oppijoiden vastauksia testin jälkeisiin kyselyihin ja arvioijien vastauksia arvioinnin jälkeisiin kyselyihin. Aineisto on kerätty DigiTala-tutkimushankkeessa (2019-2023) suomea tai ruotsia toisena kielenä oppivilta aikuisopiskelijoilta.

DigiTala-tutkimushankkeen (2019-2023) päätavoitteena on kehittää digitaalinen työkalu, joka käyttää automaattista puheentunnistusta ja automaattista pisteytystä suomen- ja ruotsinkielisten oppijoiden suullisen kielitaidon arviointiin. Työkalu antaa myös automaattista palautetta oppijoiden puhesuorituksista. Hankkeessa kehitetyn digitaalisen työkalun tarkoituksena on mahdollistaa suullisen kielitaidon arviointi korkean tason kielikokeissa. Lisäksi oppilaat voivat harjoitella ääntämistä ja puheen tuottamista vierailla kielillä itsenäisesti koulun ulkopuolella tai ilman opettajan ohjausta kielitunneilla.

Hankkeen aikana kerättiin aineistoa suomea tai ruotsia toisena kielenä opiskelevilta lukiolaisilta ja yliopisto-opiskelijoilta. Lisäksi hankkeessa hyödynnettiin suomen ja ruotsin yleisten kielitutkintojen (Yleiset kielitutkinnot, YKI) puheaineistoa.

Hanke on Suomen Akatemian rahoittama 2019-2023, ja siinä yhdistyvät Helsingin yliopiston (apurahanumero 322619), Aalto-yliopiston (apurahanumero 322625) ja Jyväskylän yliopiston (apurahanumero 322965) asiantuntemus puheen ja kielen prosessoinnissa, kielikasvatuksessa ja fonetiikassa. Nykyinen hanke perustuu pilottihankkeen aikana saatuihin kokemuksiin, ks. DigiTala (2015-2017).

Lisätietoja sisällöstä ja eri korpusversioita koskevista ehdoista ja edellytyksistä löytyy kunkin aineistoversion kuvailutiedoista.

Lisätiedot

DigiTala-hankkeen (2019-2023) verkkosivusto

DigiTala-hankkeen materiaaleja: Tehtävät, kyselylomakkeet ja arviointikriteerit


 Viimeksi päivitetty: 31.01.2024

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024013002

DigiTala (2019–2023)

Suomeksi

Current versions of this resource:
DigiTala: L2 Finnish data from upper secondary schools and university, autumn 2021
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
DigiTala: L2 Finnish data from upper secondary schools, spring 2021
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
DigiTala: L2 Swedish data from adult language learners, spring 2023
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
DigiTala’s YKI data
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Look for other versions of this resource

Corpus contents

This resource includes speech samples from L2 Finnish speakers and L2 Finland Swedish speakers, transcripts, human ratings, the learners’ responses to post-test surveys and the raters’ responses to post-rating surveys. The data was collected by the DigiTala research project (2019–2023) from adult learners of Finnish or Swedish as a second language.

The main goal for DigiTala (2019–2023) research project is to develop a digital tool that uses automatic speech recognition and automatic scoring to assess L2 Finnish and Swedish learners’ oral skills. The tool also provides automated feedback on learners’ speaking performances. The purpose of the digital tool developed in the project is to make assessment of oral language skills possible in high-stakes language tests. Furthermore, students can practice their pronunciation and speech production in foreign languages independently outside the school or without the teacher’s guidance at language classes.

During the project, material was collected from upper secondary school students and university students learning Finnish or Swedish as a second language. In addition, the project made use of the speech material from Finnish and Swedish general language tests (Yleiset kielitutkinnot, YKI).

The project is funded by the Academy of Finland 2019–2023, and combines expertise in speech and language processing, language education and phonetics at the University of Helsinki (grant number 322619), Aalto University (grant number 322625) and the University of Jyväskylä (grant number 322965). The current project builds on lessons learned during a pilot project, see DigiTala (2015–2017).

Further details about the content and the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

Further information

Website of the DigiTala research project (2019–2023)

DigiTala project resources: Tasks, surveys and rating criteria


Last updated: 07.03.2024

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024013001

T-Bone Slim -korpus

In English

Aineiston viimeisimmät versiot:  
T-Bone Slim -korpus, lähdemateriaali
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
T-Bone Slim -korpus, Westmoreland-aineisto
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
(ladattava versio tulossa)
Etsi muut saatavilla olevat versiot  

Aineiston sisältö

T-Bone Slim -korpus käsittää amerikansuomalaisen IWW-kirjailijan T-Bone Slimin (Matti V. Huhta, 1882–1942) sanomalehdissä sekä muissa vasemmistojulkaisuissa julkaistut kolumnit, laulutekstit, runot ja käsikirjoitukset. Suurin osa aineistosta sisältyy avoimesti saatavilla olevaan versioon (T-Bone Slim -korpus, lähdemateriaali), mutta osa käsikirjoituksista ja valokuvista tulee saataville luvanvaraisena (T-Bone Slim -korpus, Westmoreland-aineisto).

T-Bone Slim julkaisi tekstinsä pääasiassa IWW (Industrial Workers of the World)-työväenliikkeen lehdissä ja muissa julkaisuissa. Alkuperäisiä englanninkielisiä tekstejä julkaistiin seuraavissa julkaisuissa:

  • General Construction Workers Bulletin 1922; 1923
  • Industrial Solidarity 1921–1931  
  • Industrial Pioneer 1921; 1923; 1925
  • Industrial Worker 1921–1942
  • Junior Recruit 1934
  • Little Red Songbook 1921/1922
  • Lumber Workers Bulletin Port Arthur 1935
  • Lumber Workers Industrial Union 1923
  • One Big Union Monthly 1938 (1920?)
  • Truth 1921–1923

Lisäksi T-Bone Slimin kirjoittamia yksittäisiä tekstejä tai lehti-ilmoituksia on julkaistu seuraavissa julkaisuissa:

  • Aberdeen American 1919 (nimellä Matt Arnold)
  • Erie Times News 1904; 1925; 1926 (nimellä Mathew Huhta)
  • Evening World-Herald Omaha 1932
  • New Yorker Volkszeitung 1921
  • Producers News 1931

Suomenkielisiä käännöksiä tai alun perin suomeksi kirjoitettuja tekstejä julkaistiin seuraavissa lehdissä:

  • Amerikan Sanomat 1903 (nimellä Mathew Houghton)
  • Industrialisti 1922–1923; 1926; 1930; 1941–1942
  • Tie Vapauteen 1923

Aineisto on peräisin seuraavista kirjastoista ja arkistoista: Columbia University, Rare Book & Manuscript Library; Erie County Public Library; Genealogy Bank, Newspaper Archives; Janet Guinnane’s family photo collection; Library of Congress, Chronicling America; Kansalliskirjasto; Lakehead University Archives; Minnesota Historical Society, Minnesota Digital Newspaper Hub; Newberry Library; State Library of New South Wales; University of Michigan, Labadie Collection; Walter Reuther Library, Wayne State University; Westmorelandin perhearkisto.

Aineistokokonaisuus liittyy Koneen Säätiön rahoittamaan hankkeeseen ”T-Bone Slim and the transnational poetics of the migrant left in North America” (2022–2023).

Hankkeen kotisivut: https://blogs.helsinki.fi/tboneslim.

Tarkemmat aineistokohtaiset käyttöehdot löytyvät kunkin aineistoversion kuvailutiedoista.


 Viimeksi päivitetty: 13.05.2024

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024011205

T-Bone Slim Corpus

Suomeksi

Current versions of this resource:
T-Bone Slim Corpus, source
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
T-Bone Slim Corpus, Westmoreland materials
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
(will be available for download)
Look for other versions of this resource

Corpus contents

The T-Bone Slim corpus consists of columns, song lyrics, poems and manuscripts by the Finnish-American writer T-Bone Slim (Matti V. Huhta, 1882-1942), published in newspapers and other leftist publications. Most of the material is included in the openly available version  (T-Bone Slim Corpus, source), but part of the manuscripts and photographs will be made available under a restricted license (T-Bone Slim Corpus, Westmoreland materials).

T-Bone Slim published his texts in the labour movement’s newspapers of the IWW (Industrial Workers of the World). Original texts in English were published in the following magazines:

  • General Construction Workers Bulletin 1922; 1923
  • Industrial Solidarity 1921–1931
  • Industrial Pioneer 1921; 1923; 1925
  • Industrial Worker 1921–1942
  • Junior Recruit 1934
  • Little Red Songbook 1921/1922
  • Lumber Workers Bulletin Port Arthur 1935
  • Lumber Workers Industrial Union 1923
  • One Big Union Monthly 1938 (1920?)
  • Truth 1921–1923

In addition, individual texts and advertisements were published in the following publications:

  • Aberdeen American 1919 (under the name Matt Arnold)
  • Erie Times News 1904; 1925; 1926 (under the name Mathew Huhta)
  • Evening World-Herald Omaha 1932
  • New Yorker Volkszeitung 1921
  • Producers News 1931

Finnish translations or texts originally written in Finnish were published in the following journals:

  • Amerikan Sanomat 1903 (under the name Mathew Houghton)
  • Industrialisti 1922–1923; 1926; 1930; 1941–1942
  • Tie Vapauteen 1923

The material comes from the following libraries and archives: Columbia University, Rare Book & Manuscript Library; Erie County Public Library; Genealogy Bank, Newspaper Archives; Janet Guinnane’s family photo collection; Library of Congress, Chronicling America; National Library of Finland; Lakehead University Archives; Minnesota Historical Society, Minnesota Digital Newspaper Hub; Newberry Library; State Library of New South Wales; University of Michigan, Labadie Collection; Walter Reuther Library, Wayne State University; Westmoreland family archives.

The collection is part of the Kone Foundation funded project ”T-Bone Slim and the transnational poetics of the migrant left in North America” (2022-2023).

Project homepage: https://blogs.helsinki.fi/tboneslim

Further details about the content and the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.


Last updated: 13.05.2024

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024011204

finnsurveytext

In English

Tämän R-paketin tarkoituksena on tarjota yhteiskuntatieteiden tutkijoille hyödyllisiä ja käyttäjäystävällisiä työkaluja, joiden avulla he voivat analysoida ja ymmärtää kyselytutkimuksissaan avoimiin kysymyksiin annettuja vastauksia. 

R on tilastolaskentaan ja datan kuvantamiseen kehitetty ohjelmointikieli. R-pakettien asentaminen ja käyttö edellyttää, että R-ympäristö (tai esimerkiksi RStudio-sovellus) on asennettuna. Jos käytät CSC:n laskentaympäristöä, dokumentaatio ja ohjeita löytyy esim. https://docs.csc.fi/apps/r-env/.

Paketti on saatavilla MIT-lisenssillä. Katso lisenssin englanninkielinen teksti kokonaisuudessaan täältä.

Lisätietoja löytyy paketin kotisivulta.

Viimeisin versio:  
finnsurveytext
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa työkalu
Etsi muita tämän työkalun versioita META-SHAREsta  

Yksityiskohtaiset tiedot kunkin version sisällöstä, käyttöoikeuksista ja lisensseistä löytyvät META-SHAREn metatietueesta.  

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024011203

finnsurveytext

Suomeksi

This R package aims to provide a useful and user friendly set of tools for social science researchers to be able to analyse and understand responses to open-ended questions within their surveys.  

R is a programming language for statistical computing and data visualization. To install and use an R package, you first need to have an R installation (or, e.g., the RStudio application). If you like to use CSC computing environment, please see https://docs.csc.fi/apps/r-env/ for further documentation and instructions.

The package is available under the MIT license. Please see the full license text here.

For further information please visit the package’s website.

Latest versions/subcorpora:  
finnsurveytext
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the tool
Look for all versions in META-SHARE  

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.  

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024011202

Search the Language Bank Portal:
Heidi Niva
Researcher of the Month: Heidi Niva

 

Upcoming events


Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information