Tällä sivustolla on kokeiltavissa erilaisia työkaluja ja resursseja joita jalostetaan virallisempaan käyttöön. Virheraportteja, kehitysehdotuksia ja avunpyyntöjä voi lähettää osoitteeseen

Monikielinen tekstintunnistus
Eristä teksti kuvatiedostoista (jpg, png, pdf, ...)
fintag
Tekstin perusmuotoistus, taivutuksen ja nimettyjen ilmausten tunnistus
finsentiment
Tekstin sentimenttianalyysi
lemmarank
Tekstille leimallisten sanojen ja nimettyjen ilmausten löytäminen ja vertailu
Latauspalvelu
Kehitysvaiheessa olevien aineistojen (sanavektorit) latauspalvelu
fintok
Tekstin tokenisointi
like-unlike (beta)
Haku sana­vektori­aineistosta
ofitwol
Suomen kielen morfofoneeminen analyysi ofitwol-kaksitasosäännöillä
ASR demo
Suomen kielen puheentunnistus (Aalto-ASR / Kaldi)
finnish-forced-align
Suomen kielen puheen kohdistus

Seuraavat ovat kehitteillä olevien työkalujen tulosteita, eli esimerkkejä siitä mitä ne tekevät. Jos olet erityisen kiinnostunut niiden tutkimuskäytöstä, ota yhteyttä.

Käsitelouhinta
Käsiteluetteloa (tässä tapauksessa Tieteen Termipankkia) käytetään yhdessä referenssi­korpuksen kanssa (FTC:n sanomalehtiaineisto) löytämään kohdeaineistosta (eri tiede­kuntien opin­näyte­työt) olemassa­olevien termien lähikäsitteitä sekä uusia, kohdeaineistolle ominaisia käsitteitä.
Tekstikategorioiden indusoima semantiikka
Kun korpus on jaettu temaattisiin kategorioihin (tässä Ylilauta -keskustelu­foorumin alaosiot), voidaan tehdä tilas­to­llinen luo­kit­telija jonka tehtävä on oppia arvaamaan, kuuluuko viesti tietyyn kategoriaan (tässä "politiikka") vai ei. Näin voidaan löytää, mitkä viestit muissa kategorioissa muistuttavat tätä maalikategoriaa, (tässä: ovat poliittisia).
Topiikkimallin esitysmuoto
Tekstikokoelman topiikkien (aiheiden), mallintamiseen tarkoitetut menetelmät antavat tavallisesti kullekin tekstille jakauman siitä, millä todennäköisyydellä se kuhunkin topiikkiin kuuluu, sekä luettelon sanoista joiden ehdollinen toden­näköisyys esiintyä tietyn topiikin teksteissä on erityisen suuri. Tässä esimerkissä edellisen esimerkin poliittiset viestit kaikista aihealueista on luokiteltu topiikkeihin, topiikkien jakaumat esitetty visuaalisesti sekä topiikkien sisältösanat esitetty sanaluokittain.

Tarjolla on myös vanhempia työkaluja joita ei aktiivisesti kehitetä:

HFST:n monikielinen morfologiakokoelma
Morfologista analyysiä lukuisista kielistä; joistain myös synonyymejä, oikeinkirjoitusta, käännös- ja tavutussanakirjoja
HFST POS-taggers
Sanaluokan tunnistus juoksevasta tekstistä suomeksi, englanniksi ja ruotsiksi
FinnWordNet
Tietokantahaku semanttisesta sanakirjasta

Voit viitata tähän verkkopalveluun seuraavasti:
Helsingin yliopisto, Digitaalisten ihmistieteiden osasto (2019). Kielipankin työkaludemot [verkkopalvelu]. Kielipankki. Käytettävissä osoitteessa http://www.kielipankki.fi/tyokalut osiossa "Kielipankin työkaludemoja".