Tällä sivustolla on kokeiltavissa erilaisia työkaluja ja resursseja joita jalostetaan virallisempaan käyttöön. Virheraportteja, kehitysehdotuksia ja avunpyyntöjä voi lähettää osoitteeseen

Rakenteellinen analyysi

fintag
Tekstin perusmuotoistus, taivutuksen ja nimettyjen ilmausten tunnistus
finparse
Tekstin morfosyntaktinen dependenssijäsennys
ofitwol
Morfofoneeminen analyysi ofitwol-kaksitasosäännöillä

Puhuttu kieli

Puheentunnistus
Suomen kielen puheentunnistus (Aalto-ASR & Kaldi)
finnish-forced-align
Puheen kohdistus tekstiin

Tekstianalyysi

FinnSentiment
Tekstin sentimenttianalyysi
lemmarank
Tekstille leimallisten sanojen ja nimettyjen ilmausten löytäminen ja vertailu

Sanasemantiikka

like-unlike
Vastaavuuksia (like) ja vastakohtaisuuksia (unlike) tukeva haku sanaupotusaineistoista
FinnWordNet
Tietokantahaku semanttisesta sanakirjasta

Apuvälineitä

Monikielinen tekstintunnistus
Eristä teksti kuvatiedostoista (jpg, png, pdf, ...)
fintok
Tekstin tokenisointi
XML-strip
Juoksevan tekstin eristäminen XML-dokumentista jatkokäsittelyä varten
Latauspalvelu
Kehitysvaiheessa olevien aineistojen (sanavektorit) latauspalvelu

Seuraavat ovat kehitteillä olevien työkalujen tulosteita, eli esimerkkejä siitä mitä ne tekevät. Jos olet erityisen kiinnostunut niiden tutkimuskäytöstä, ota yhteyttä.

Käsitelouhinta
Käsiteluetteloa (tässä tapauksessa Tieteen Termipankkia) käytetään yhdessä referenssi­korpuksen kanssa (FTC:n sanomalehtiaineisto) löytämään kohdeaineistosta (eri tiede­kuntien opin­näyte­työt) olemassa­olevien termien lähikäsitteitä sekä uusia, kohdeaineistolle ominaisia käsitteitä.
Tekstikategorioiden indusoima semantiikka
Kun korpus on jaettu temaattisiin kategorioihin (tässä Ylilauta -keskustelu­foorumin alaosiot), voidaan tehdä tilas­to­llinen luo­kit­telija jonka tehtävä on oppia arvaamaan, kuuluuko viesti tietyyn kategoriaan (tässä "politiikka") vai ei. Näin voidaan löytää, mitkä viestit muissa kategorioissa muistuttavat tätä maalikategoriaa, (tässä: ovat poliittisia).
Topiikkimallin esitysmuoto
Tekstikokoelman topiikkien (aiheiden), mallintamiseen tarkoitetut menetelmät antavat tavallisesti kullekin tekstille jakauman siitä, millä todennäköisyydellä se kuhunkin topiikkiin kuuluu, sekä luettelon sanoista joiden ehdollinen toden­näköisyys esiintyä tietyn topiikin teksteissä on erityisen suuri. Tässä esimerkissä edellisen esimerkin poliittiset viestit kaikista aihealueista on luokiteltu topiikkeihin, topiikkien jakaumat esitetty visuaalisesti sekä topiikkien sisältösanat esitetty sanaluokittain.

Tarjolla on myös vanhempia työkaluja joita ei aktiivisesti kehitetä:

HFST:n monikielinen morfologiakokoelma
Morfologista analyysiä lukuisista kielistä; joistain myös synonyymejä, oikeinkirjoitusta, käännös- ja tavutussanakirjoja
HFST POS-taggers
Sanaluokan tunnistus juoksevasta tekstistä suomeksi, englanniksi ja ruotsiksi

Voit viitata tähän verkkopalveluun seuraavasti:
Helsingin yliopisto, Digitaalisten ihmistieteiden osasto (2019). Kielipankin työkaludemot [verkkopalvelu]. Kielipankki. Käytettävissä osoitteessa http://www.kielipankki.fi/tyokalut osiossa "Kielipankin työkaludemoja".