Korp siirretty uudelle palvelimelle pienin korjauksin ja muutoksin

Kielipankin Korp-palvelu siirrettiin uudelle palvelimelle 12.11.2024. Tässä yhteydessä Korpiin tehtiin pieniä korjauksia ja muutoksia, jotka on lueteltu alla. Pahoittelemme, että jotkin ominaisuudet olivat pitkään toimimattomia.

Jos jokin ei toimi kuten ennen, lähetä palautetta joko palautelomakkeen kautta tai sähköpostitse osoitteella fin-clarin (ät) helsinki.fi.

Korjauksia ja muutoksia:

  • Laajennetun haun aikavälivalitsin (tekstin piirre aikaväli) toimii jälleen.
  • Virkkeen, kappaleen ja tekstin tunnistetut kielet sisältävien tekstin piirteiden esitysmuotoa on muutettu. Muutokset koskevat Kansalliskirjaston lehtikokoelman (KLK) suomenkielisten lehtien versiota 2 sekä Suomi24 2018–2020 -aineistoa. Muutokset ovat seuraavat:
    • Kielestä näkyy aina kolmikirjaiminen ISO 639-3 -kielikoodi.
    • Jos kielikoodille on käännös, konkordanssin reunapalkissa kielen nimi näkyy työkaluvihjeenä, kun vie kohdistimen kielikoodin kohdalle.
    • Konkordanssin reunapalkissa kielikoodi on linkki kyseisen kielen sivulle SIL:n ISO 639-3 -sivustolla.
    • Laajennetussa haussa virkkeen kielen kielikoodeille on valintalista.
    • Piirteen nimessä näkyy kielikoodistandardi (ISO 639-3).
  • Suomi24 2001–2020 -aineistossa tekstin piirteen nimi virkkeen polaarisuus on muutettu muotoon virkkeen tunnesävyn polaarisuus (tunnesävy = sentimentti), ja piirteen sisäinen nimi (jota käytetään mm. edistyneessä haussa) on muutettu sentence_polaritysentence_sentiment_polarity.
  • Lauseopin arkiston murreaineistossa, ELFA-aineistossa (English as a Lingua Franca in Academic Settings) ja ScotsCorr-aineistossa laajennetun haun hakutulokset sisältävät osumia, joissa laajennetussa haussa eksplisiittisesti määriteltyjen saneiden välissä voi esiintyä välimerkkejä ja saneina esitettyjä annotaatioita. Näin tällaisia saneita ei tarvitse erikseen ottaa huomioon laajennetun haun hakuehdossa. Tämä ominaisuus oli ”vanhassa Korpissa” (Korp 5), joka ajettiin alas kesäkuussa 2024.
  • ScotsCorr-aineisto toimii viimein tässä Korp-versiossa. Lisäksi tekstin piirteen nimi käsiala (toissijainen) näkyy nyt oikein.
  • Reitti A-siipeen -aineiston (Reittidemo) videolinkit toimivat jälleen.

Korpin uutisikkunan uutiset sisältävät joitain lisätietoja näistä muutoksista.

Korp moved to a new server, with some fixes and changes

The Korp service of the Language Bank of Finland was moved to a new server on 12 November 2024. Korp also got a few minor fixes and changes listed below. We apologize for some features having been broken for a long time.

If something does not work as before, please send feedback either via the feedback form or by email to fin-clarin (at) helsinki.fi.

Fixes and changes:

  • The time interval selector (text attribute time interval) in the extended search works again.
  • The representation of the text attributes containing the identified language(s) of a sentence, paragraph and text has been changed. The changes affect the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 and the Suomi24 2018–2020 corpus. The internal representations of the attributes are intact, so they can be used in the CQP expressions of the advanced search as before. The changes are the following:
    • A language is always represented by its three-letter ISO 639-3 code.
    • If a language code has a translation, it is shown as a tooltip in the sidebar of the KWIC result when hovering over the code.
    • A language code in the KWIC sidebar is a link to the page of the language in question on the SIL’s ISO 639-3 site.
    • The extended search has a selection list for language codes (sentence only).
    • The attribute label includes the language code standard (ISO 639-3).
  • In the Suomi24 2001–2020 corpus, the text attribute name sentence polarity has been changed to sentence sentiment polarity and the internal name of the attribute (used e.g. in the extended search) has been changed from sentence_polarity to sentence_sentiment_polarity.
  • In The Finnish Dialect Corpus of the Syntax Archive (LA-murre), The Corpus of English as a Lingua Franca in Academic Settings (ELFA) and ScotsCorr, the search results of the extended search include matches with punctuation marks and annotations represented as tokens between the tokens explicitly specified in the extended search. Such tokens thus need not be explicitly taken into account in the extended search expression. This feature was present in the “old Korp” (Korp 5) that was shut down in June 2024.
  • The ScotsCorr corpus finally works in this Korp version. In addition, the name of the text attribute script type (secondary) is now shown correctly.
  • The video links in the Route to A wing Corpus (Reittidemo) work again.

For some more details, please see the corresponding news items on the Korp newsdesk.

Mylly will be discontinued on 17th June 2024

Due to very low usage, the Mylly service (https://mylly.rahtiapp.fi) will be shut down at the same time as CSC’s cloud services move to Rahti’s new version during the summer 2024. Mylly will be available until  17th June 2024. Due to the short notice, we will keep the users’ data for three months after the shutdown.

In case you wish to download your data, you can do it yourself by 17th June or by contacting CSC service desk within three months.

In case you wish to utilise the tool scripts from Mylly on other services (e.g., Puhti or CSC Notebooks), the software will still be available on GitHub.

Mylly-palvelu suljetaan 17.6.2024

Vähäisestä käytöstä johtuen Mylly-palvelu (https://mylly.rahtiapp.fi) ajetaan alas samassa yhteydessä, kun CSC:n pilvipalvelut siirtyvät Rahtin uuteen versioon kesän 2024 aikana. Mylly on käytettävissä vielä 17.6.2024 asti. Nopeasta aikataulusta johtuen pyrimme säilyttämään käyttäjien aineistot vielä 3 kuukautta tämän jälkeen.

Jos haluat Myllyssä olleet aineistosi talteen, voit ladata ne itse 17.6. asti tai seuraavan kolmen kuukauden ajan ottamalla yhteyttä CSC:n asiakaspalveluun.

Jos haluat hyödyntää Myllyn työkaluskriptejä muilla alustoilla (esim. Puhti tai CSC Notebooks), skriptit ovat saatavilla GitHubista myös jatkossa.

GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

The GiellaLT website contains the technical documentation of the GiellaLT infrastructure, developed and used by Divvun and Giellatekno.

It is an open source website providing analysers and tools for a wide range of languages, as well as a ready-made setup for adding more languages.

 

Testing and enhancement of language models (transducers) from GiellaLT

The Language Bank of Finland is currently in the process of evaluating the state of development of GiellaLT’s analysers for individual languages in relation to text data being annotated for the Korp search engine.

Read more about the details and findings of the evaluation performed by Jack Rueter.

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024050301

Testing and enhancement of language models (transducers) from GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. The web site of GiellaLT offers language models (transducers) for a wide range of languages. Writing documentation for each language repository is an ongoing effort, and part of the development process.

Analyser enhancement

The GiellaLT infrastructure, with its implementation of finite-state tools, allows people working with different languages to make use of technological solutions that, otherwise, might require several years of individual development. It is here that descriptions for many of the Uralic languages have been initialized and developed as both financed projects and the work of language technology enthusiasts.
The GiellaLT infrastructure makes it possible to reuse finite-state descriptions and even encourages it. Thus, contributing to the enhancement of the finite-state tools at GiellaLT, when extending the annotation of corpora on the Language Bank of Finland’s Korp server, is beneficial to the search engine users as well.

On this page, we will evaluate the state of development of analysers for individual languages in relation to text data being annotated for the Korp search engine. This evaluation will therefore be aligned with the annotation of upcoming corpora, such as a new extended version of PaBiVUS (Parallel Biblical Verses for Uralic Studies). The objective is to increase the lemmatization, morphological and syntactic annotation coverage not previously offered for non-majority languages in the parallel corpus. So, here we will provide an illustrative depiction of each individual finite-state description and what steps have been made for improvement. This might be seen as enhanced but not complete coverage of various genre as we go.

The evaluations will tend to illustrate the capacities of the analysers, which do have equivalent generators, but the possible overproductivity of these generators is presently not the focus of these evaluations. In time, attention will be also drawn towards the description of the disambiguation of morphological analyses, which is made possible in the open-source GiellaLT infrastructure. The enhanced descriptions, housed in GiellaLT, will serve as a contribution by the Language Bank of Finland in the shared responsibilities towards improved coverage of lesser described languages and NLP addressing them. Thus, the resulting analysers will available for building within the GiellaLT infrastructure or the UralicNLP python, java and .net libraries available through Github or the Language Bank of Finland.

For more details see the complete description on the analyser enhancement by Jack Rueter.

Evaluations of analysers for individual languages:

Please follow this link for a Follow-up on the analyser enhancement by Jack Rueter.


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024050302

Nordic Tweet Stream (NTS) haku- ja visualisointikäyttöliittymä

In English

NTS on monikielinen monitorikorpus, joka sisältää maantieteellisesti paikannettuja twiittejä ja niihin liittyviä metatietoja Pohjoismaista. Kaikkiaan se sisältää lähes 74 miljoonaa viestiä sadoilta tuhansilta käyttäjätileiltä Tanskasta, Suomesta, Islannista, Norjasta ja Ruotsista. NTS-tiedot kattavat ajanjakson tammikuun 2013 ja toukokuun 2023 välillä, ja ne kerättiin Twitter Academic API:n avulla, joka on nyt suljettu.

NTS:n tarkoituksena on helpottaa SSH:n perustutkimusta. NTS:ssä on helppokäyttöinen graafinen käyttöliittymä, joka tukee nopeaa tiedonsaantia, jotta tutkijat voivat keskittyä tietojen analysointiin. Tietoaineisto mahdollistaa erityyppiset tutkimukset. Esimerkiksi on mahdollista tutkia julkista keskustelua ja tunteita lähihistorian tapahtumista (esim. COVID-19-pandemia, Nato-jäsenyysprosessi jne.). Tietokokonaisuus on myös resurssi sosiolingvistiselle tutkimukselle ja monikielisyyden tutkijoille.

Tutustu verkkosivustoon.

Lisää tietoa NTS:stä

Jos käytät NTS-käyttöliittymää ja hyödynnät tuloksia julkaisuissasi, mainitse hiljattain julkaistu artikkeli, joka on saatavilla verkossa:
[1] Laitinen, Mikko, Jonas Lundberg, Magnus Levin & Rafael Martins. 2018. The Nordic Tweet Stream: A Dynamic Real-Time Monitor Corpus of Big and Rich Language Data, Proc. of Digital Humanities in the Nordic Countries 3rd Conference, Helsinki, Finland, March 7-9, 2018, CEUR-WS.org, online CEUR-WS.org/Vol-2084/short10.pdf.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024041502

Nordic Tweet Stream (NTS) search & visualization interface

Suomeksi

The NTS is a multilingual monitor corpus of geolocated tweets and associated metadata from the Nordic region. Altogether, it contains nearly 74 million messages from hundreds of thousands of user accounts from Denmark, Finland, Iceland, Norway, and Sweden. The NTS data cover the period between January 2013 and May 2023 and were collected using the Twitter Academic API, which is now closed.

The purpose of the NTS is to facilitate fundamental research in SSH. The NTS comes with an easy-to-use graphic interface that supports quick data access so that researchers can focus on data analysis. The dataset enables various types of research. For instance, it is possible to study public discourses and sentiment concerning events in recent history (e.g., the COVID-19 pandemic, the NATO membership process, etc.). The dataset is also a resource for sociolinguistic research and for scholars of multilingualism.

Please visit the website.

About NTS

If you use the NTS interface and use the findings in your publications, please cite the recent paper, which is available online:
[1] Laitinen, Mikko, Jonas Lundberg, Magnus Levin & Rafael Martins. 2018. The Nordic Tweet Stream: A Dynamic Real-Time Monitor Corpus of Big and Rich Language Data, Proc. of Digital Humanities in the Nordic Countries 3rd Conference, Helsinki, Finland, March 7-9, 2018, CEUR-WS.org, online CEUR-WS.org/Vol-2084/short10.pdf.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024041501

HeLI-OTS 1.5 – automaattinen kielentunnistin 200 eri kielelle

Oletko etsiskellyt työkalua, jolla voisi tunnistaa tekstin virkkeiden kielen?
Tutustu HeLI-OTSin uusimpaan versioon 1.5: https://www.kielipankki.fi/tools/heli-ots/

HeLI-OTS 1.5 – an off-the-shelf language identifier for 200 languages

Have you been looking for a tool that can identify the language of individual sentences in text?
Take a look at HeLI-OTS version 1.5: https://www.kielipankki.fi/tools/heli-ots/

New tool: finnsurveytext

Finnsurveytext is an R package for social science researchers to analyse and understand the answers to open-ended questions in their surveys. Finnsurveytext is available in GitHub.

R is a programming language for statistical computing and data visualization. To install and use an R package, you first need to have an R installation (or, e.g., the RStudio application). If you like to use the CSC computing environment, please see https://docs.csc.fi/apps/r-env/ for further documentation and instructions.

More information can be found on the resource group page.

Uusi työkalu: finnsurveytext

Finnsurveytext on yhteiskuntatieteiden tutkijoille tarkoitettu R-paketti, jonka avulla he voivat analysoida ja ymmärtää kyselytutkimustensa avoimien kysymysten vastauksia. Finnsurveytext on nyt käytettävissä GitHubissa.

R on tilastolaskentaan ja datan kuvantamiseen kehitetty ohjelmointikieli. R-pakettien asentaminen ja käyttö edellyttää, että R-ympäristö (tai esimerkiksi RStudio-sovellus) on asennettuna. Jos käytät CSC:n laskentaympäristöä, dokumentaatio ja ohjeita löytyy esim. https://docs.csc.fi/apps/r-env/.

Lisätiedot löytyvät aineistoryhmäsivulta.

finnsurveytext

In English

Tämän R-paketin tarkoituksena on tarjota yhteiskuntatieteiden tutkijoille hyödyllisiä ja käyttäjäystävällisiä työkaluja, joiden avulla he voivat analysoida ja ymmärtää kyselytutkimuksissaan avoimiin kysymyksiin annettuja vastauksia. 

R on tilastolaskentaan ja datan kuvantamiseen kehitetty ohjelmointikieli. R-pakettien asentaminen ja käyttö edellyttää, että R-ympäristö (tai esimerkiksi RStudio-sovellus) on asennettuna. Jos käytät CSC:n laskentaympäristöä, dokumentaatio ja ohjeita löytyy esim. https://docs.csc.fi/apps/r-env/.

Paketti on saatavilla MIT-lisenssillä. Katso lisenssin englanninkielinen teksti kokonaisuudessaan täältä.

Lisätietoja löytyy paketin kotisivulta.

Viimeisin versio:  
finnsurveytext
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa työkalu
Etsi muita tämän työkalun versioita META-SHAREsta  

Yksityiskohtaiset tiedot kunkin version sisällöstä, käyttöoikeuksista ja lisensseistä löytyvät META-SHAREn metatietueesta.  

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024011203

finnsurveytext

Suomeksi

This R package aims to provide a useful and user friendly set of tools for social science researchers to be able to analyse and understand responses to open-ended questions within their surveys.  

R is a programming language for statistical computing and data visualization. To install and use an R package, you first need to have an R installation (or, e.g., the RStudio application). If you like to use CSC computing environment, please see https://docs.csc.fi/apps/r-env/ for further documentation and instructions.

The package is available under the MIT license. Please see the full license text here.

For further information please visit the package’s website.

Latest versions/subcorpora:  
finnsurveytext
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the tool
Look for all versions in META-SHARE  

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.  

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024011202

Tieteen termipankki

In English

Tieteen termipankki (The Helsinki Term Bank for the Arts and Sciences, HTB) on monitieteinen hanke, jonka tavoitteena on koota kaikkien Suomessa harjoitettavien tieteenalojen pysyvä termitietokanta. Termipankille on luotu Semantic MediaWiki -alusta, joka toimii yhteistyöympäristönä. Kuka tahansa voi vapaasti hyödyntää alustaa ja osallistua termejä koskevaan keskusteluun.

Tieteen termipankki
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohjeet
Avaa verkkopalvelu

Kuvailutiedoissa on lisätietoa termipankin sisällöstä ja käyttöehdoista.

 


Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2024010821

Dockeroitujen työkalujen asennus ja käyttöönotto (finnish-postag, finnish-nertag, …)

Osa työkaluista on tarjolla Docker-paketteina. Näin niitä voi käyttää ilman tarvetta asentaa mitään muuta (paitsi Dockerin). Tällä hetkellä paketit ovat komentorivityökalujen korvikkeita, eli niitä käytetään stdin ja stdout -mekanismien kautta, mutta näitä työkaluja voi käyttää myös sovelluspalvelimen avulla verkkopalveluna.

Toistaiseksi tarjolla ovat finnish-nertag, finnish-postag ja finnish-tokenize.

Asennus

Työkalut löytyvät kielipankin Dockerhub-tililtä, joten ne voi asentaa seuraavasti:

sudo docker pull kielipankki/finnish-nertag:latest

(Tai finnish-postag, ja niin edelleen.)

Käyttäminen

Docker-paketit kommunikoivat stdinin ja stdoutin välityksellä, joten niitä voi testata esimerkiksi näin:

$ sudo docker run --rm -i kielipankki/finnish-nertag <<< 'Pekingin olympialaiset 2008'
Pekingin <EnamexEvtXxx>
olympialaiset
2008 </EnamexEvtXxx>

Niille voi antaa samoja komentoriviargumentteja kuin normaalistikin:

$ sudo docker run --rm -i kielipankki/finnish-nertag --bio <<< 'Pekingin olympialaiset 2008'
Pekingin B-MISC
olympialaiset I-MISC
2008 I-MISC

$ sudo docker run –rm -i kielipankki/finnish-nertag –show-analyses <<< ’Pekingin olympialaiset 2008’
Pekingin peking [POS=NOUN][PROPER=PROPER][NUM=SG][CASE=GEN] [PROP=GEO] <EnamexEvtXxx>
olympialaiset olympialaiset [POS=NOUN][NUM=PL][CASE=NOM] _
2008 2008 [POS=NUMERAL][SUBCAT=CARD] _ </EnamexEvtXxx>

ELG-yhteensopiva HeLI-OTS-kielentunnistin julkaistu hub.docker.com -palvelussa Lingsoftin ja Helsingin yliopiston yhteistyönä

HeLI-OTS on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan tekstin kielen. HeLI-OTS valitsee sopivimman vaihtoehdon 200 kielen joukosta. Nyt julkaistu docker-versio perustuu aikaisemmin viime kuussa julkaistuun HeLI-OTS versioon 1.3, joka on saatavilla Zenodosta.

Uusina ominaisuuksina ensimmäiseen viime vuoden kesäkuussa julkaistuun 1.0 versioon verrattuna ovat uusimmassa versiossa:
– Kielen tunnistuksen luotettavuudelle voi tulostaa arvon.
– Mahdollisuus tulostaa lista todennäköisimmin tunnistetuista kielistä vain yhden todennäköisimmän sijaan.
– Mahdollisuus käyttää osana tekstinkäsittelyprosessia: tunnistettavaa tekstiä ei tarvitse aina lukea tiedostosta.
– Tunnistuksen kielivalikoimaa voi rajoittaa sekä tunnistinta käynnistettäessä että myöhemmin.
– Käytössä on useita kielimalleja murteelliselle suomelle.

Docker-julkaisu tapahtui Lingsoftin toimesta osana Microservices at your service -projektia.

Projekti järjestää kaksi NLP-työkalujen kehittäjille ja käyttäjille ELG:tä ja sen mahdollisuuksia esittelevää työpajaa 22.3. ja 25.3. otsikolla ”ELG, a bridge for NLP development”.

HeLI-OTS on kehitetty osana Vaikuttavuussäätiön rahoittamaa HY:n ja Lingsoftin tekstin ja puheen kielentunnistukseen keskittyvää yhteistyöprojektia.

Jutussa esiintyviä linkkejä kootusti:
HeLI-OTS-kielentunnistin hub.docker.com -palvelussa
HeLI-OTS versio 1.3
HeLI-OTS versio 1.0
Lingsoft
Microservices at your service -projekti
European Language Grid (ELG)
Vaikuttavuussäätiö

ELG-compatible HeLI-OTS language identifier released on hub.docker.com in collaboration with Lingsoft and the University of Helsinki

HeLI-OTS is a general-purpose language identifier that can automatically detect the language used in a text. HeLI-OTS selects the most suitable option from a list of 200 languages. The current docker version is based on HeLI-OTS version 1.3, which was released earlier last month and is available on Zenodo.

New features compared to the first version 1.0 (released in June last year) are included in the latest version:
– A value can be printed for the confidence score of language identification.
– The possibility to print a list of the most likely identified languages instead of only the most likely one.
– The possibility to use as part of a text processing process: the text to be identified does not always have to be read from a file.
– The repertoire of languages used for identification can be limited both at start-up and later.
– Several language models for dialectal Finnish are used.

The Docker release was done by Lingsoft as part of the Microservices at your service project.

The project will organize two workshops for NLP tool developers and users to introduce ELG and its potential on 22 and 25 March under the title ”ELG, a bridge for NLP development”.

HeLI-OTS has been developed as part of a collaborative project between University of Helsinki and Lingsoft on text and speech recognition, funded by the Finnish Research Impact Foundation.

Links:
HeLI-OTS language identifier on hub.docker.com
HeLI-OTS version 1.3
HeLI-OTS version 1.0
Lingsoft
”Microservices at your service” project
European Language Grid (ELG)
Finnish Research Impact Foundation

Aalto-ASR – Aalto University Automatic Speech Recognition System

Suomeksi

Aalto-ASR includes two main functionalities: automatic speech recognition and automatic forced alignment. The speech recognizer allows you to obtain a transcript of an audio file that contains Finnish speech. The result of the recognition process is returned either as an annotation file (such as Praat TextGrid) or as a plain text file. In case a transcript of the audio file already exists, the words included in the text can be automatically aligned with the corresponding parts of the audio signal. The automatic forced aligner also works in several other languages in addition to Finnish.

Aalto University Automatic Speech Recognition System, version 2.1
Metadata, license and citation instructions
Instructions (in Finnish only; English instructions forthcoming!)

Recent updates

The new, upgraded version 2.1 was installed in Kielipankki in September 2021. The tools can be used in the Puhti environment. If required, Aalto-ASR can now also be installed on other environments as a Docker container.

Some features of version 1 were previously available via the Mylly service as well. However, the old Aalto-ASR version was removed in 2020 and the new version has not yet been plugged in to Mylly, but this may happen at a later stage.

 

Persistent identifier of this resource group page: http://urn.fi/urn:nbn:fi:lb-2021082325

 

Aalto-ASR – Aalto University Automatic Speech Recognition System v2.1 is available

The upgraded version 2.1 of the Aalto University Automatic Speech Recognition System (Aalto-ASR) is now available for use on the CSC Puhti server. Instructions for using the toolkit are currently available in Finnish only (English translation forthcoming).

There are currently two main functionalities in Aalto-ASR:

  • Speech recognition (kaldi-rec): creating a preliminary transcript from Finnish speech recordings in WAV format to plaintext files and/or annotation files.
  • Forced alignment (kaldi-align): If you already have a plain-text transcript of the audio recording, it is possible to automatically align the text with the corresponding portions of the sound signal. The aligner tool currently works in Finnish, Swedish, Northern Sámi, Estonian, Komi and English.

The brand new version of Aalto-ASR is also available as a Docker container that can be installed on other systems if required.

Metadata and citation instructions for Aalto-ASR 2.1

Hae Kielipankki-portaalista:
Sofoklis Kakouros
Kuukauden tutkija: Sofoklis Kakouros

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot