HeLI-OTS 1.0 on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan jokaisen annetussa tekstitiedostossa olevan tekstirivin kielen. HeLI-OTS 1.0 valitsee sopivimman vaihtoehdon 200 kielen joukosta.
HeLI-OTS 1.0 on julkaistu Helsingin yliopiston ja Lingsoft Oy:n yhteistyöprojektissa Language Identification of Speech and Text, joka on saanut rahoitusta Vaikuttavuussäätiön “Tandem Industry Academia 2020” -hausta. Kielentunnistin perustuu HeLI-menetelmään, jonka Tommi Jauhiainen ja Heidi Jauhiainen ovat kehittäneet Tommin pro gradu– ja väitöstutkimusten pohjalta Helsingin yliopiston digitaalisten ihmistieteiden osastolla.
Kielentunnistin on saatavilla avoimilla Apache 2- ja CC-BY-lisensseillä Zenodon kautta. Sitä on myös helppo käyttää: se lukee parametrinä annetun tekstitiedoston, tunnistaa tiedoston jokaisen rivin kielen ja kirjoittaa vastaavat ISO 639-3 järjestelmän mukaiset kielikoodit tulostiedoston riveille. Zenodosta voi ladata koko kielentunnistimen lähdekoodin, mutta mikäli haluaa vain käyttää kielentunnistinta, tarvitaan pelkästään HeLI.jar-niminen tiedosto, joka on kooltaan 42 megatavua. Toiminnassa ollessaan kielentunnistin käyttää noin 3 gigatavua keskusmuistia ja yhden laskentaytimen. Se kykenee nykyaikaisella kannettavalla tietokoneella tunnistamaan sekunnissa noin 3000 virkkeen kielen.
HeLI-OTS-työkalun voi käynnistää seuraavanlaisella komennolla:
java -jar HeLI.jar <infile> <outfile>