9.6.2021

Kielentunnistin HeLI-OTS 1.0 nyt ladattavissa Zenodosta

HeLI-OTS 1.0 on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan jokaisen annetussa tekstitiedostossa olevan tekstirivin kielen. HeLI-OTS 1.0 valitsee sopivimman vaihtoehdon 200 kielen joukosta.

HeLI-OTS 1.0 on julkaistu Helsingin yliopiston ja Lingsoft Oy:n yhteistyöprojektissa Language Identification of Speech and Text, joka on saanut rahoitusta VaikuttavuussäätiönTandem Industry Academia 2020” -hausta. Kielentunnistin perustuu HeLI-menetelmään, jonka Tommi Jauhiainen ja Heidi Jauhiainen ovat kehittäneet Tommin pro gradu– ja väitöstutkimusten pohjalta Helsingin yliopiston digitaalisten ihmistieteiden osastolla.

Kielentunnistin on saatavilla avoimilla Apache 2- ja CC-BY-lisensseillä Zenodon kautta. Sitä on myös helppo käyttää: se lukee parametrinä annetun tekstitiedoston, tunnistaa tiedoston jokaisen rivin kielen ja kirjoittaa vastaavat ISO 639-3 järjestelmän mukaiset kielikoodit tulostiedoston riveille. Zenodosta voi ladata koko kielentunnistimen lähdekoodin, mutta mikäli haluaa vain käyttää kielentunnistinta, tarvitaan pelkästään HeLI.jar-niminen tiedosto, joka on kooltaan 42 megatavua. Toiminnassa ollessaan kielentunnistin käyttää noin 3 gigatavua keskusmuistia ja yhden laskentaytimen. Se kykenee nykyaikaisella kannettavalla tietokoneella tunnistamaan sekunnissa noin 3000 virkkeen kielen.

HeLI-OTS-työkalun voi käynnistää seuraavanlaisella komennolla:

java -jar HeLI.jar <infile> <outfile>