Kielipankin ylläpitämät työkalut ja palvelut voivat olla käytettävissä verkkosivustolla tai ladattavissa omalle koneelle latauspalvelusta (esim. GitHub tai Korp). Tältä sivulta löydät myös muita FIN-CLARINin tai CLARIN ERICin jäsenorganisaatioiden kehittämiä työkaluja.
Kielipankin aineistoilla on kolme tukitasoa.
A: Kielivaraa kehitetään ja parannetaan aktiivisesti. Kielipankki korjaa aineistoon liittyvät ongelmat mahdollisimman nopeasti.
B: Kielivaraa kehitetään ainoastaan käyttäjien pyynnöstä. Kielipankki pyrkii korjaamaan ongelmia, mutta se saattaa edellyttää ulkopuolista työpanosta.
C: Kielivara on saatavilla sellaisenaan. Kielipankki ei korjaa eikä kehitä aineistoa.
Etsi muita saatavilla olevia työkaluja: CLARIN, CLARIN Virtual Language Observatory (VLO)
Löydät yleiskatsauksen kaikista aineistoistamme lajiteltuna aineistoperheiden mukaan FIN-CLARIN-aineistoperheet -sivulta.
Käynnistä työkalu | Nimi (ja kuvailutiedot) | Kuvaus | Ohjeet | Asentaminen | Info | Ylläpitäjä | Tukitaso |
---|---|---|---|---|---|---|---|
![]() | Korp | Selainpohjainen konkordanssityökalu, jolla voi tehdä hakuja tekstiaineistoista morfosyntaktisen jäsennyksen perusteella. | Ohjeet | icon-question-circle | ![]() | A | |
Lataus | Latauspalvelu | Lataa aineistoja omalle koneellesi. | icon-question-circle | ![]() | A | ||
Aalto-ASR | Aalto University Automatic Speech Recognition System | Puheentunnistin, jota voi käyttää CSC:n laskentaympäristössä. | Ohjeet | Asennus (GitHub) | icon-question-circle | ![]() | |
ANEE Lexical Networks | ANEE Lexical Networks | ANEE:n leksikaalinen portaali on graafinen semanttinen sanakirja, joka on esitetty verkostona. Portaalissa voi tutkia yksikkömuotoisten akkadinkielisten sanojen merkityksiä visuaalisella tavalla. | icon-question-circle | ![]() | |||
Annif | Annif | Annif on Kansalliskirjastossa kehitettävä avoimen lähdekoodin työkalu, jolla voi automaattisesti etsiä asiasanoja tekstille. | ![]() | ||||
![]() | CLARIN Federated Content Search | Hae keskitetysti kaikkien CLARIN-keskusten aineistoista. | icon-question-circle | ![]() | |||
digi.kansalliskirjasto.fi | Digitaaliset aineistot | Kansalliskirjaston palvelu, jossa voi tehdä hakuja digitaalisista kokoelmista ja ladata sisältöjä omalle koneelle. Sanoma- ja aikakauslehtien lisäksi Digissä on myös mm. kirjoja, kuvia, karttoja, nuotteja jne. Huomaa, että suuri osa lehtiaineistoista on käytettävissä myös Kielipankin Korp-palvelun kautta (ks. KLK). | icon-question-circle | ![]() | |||
![]() | ELAN | ELAN on ohjelma, jolla voi litteroida ja annotoida ääni- ja videotiedostoja. Sillä voi myös tehdä hakuja paikallisesti tallennetuista annotoiduista aineistoista. | Ohjeet | Asennus | icon-question-circle | ![]() | |
FinBERT | FinBERT | Suomelle harjoitettu BERT malli. | Asennus(GitHub) | icon-question-circle | ![]() | ||
Finland Swedish Online | Finland Swedish Online | Alusta, joka tarjoaa verkkokursseja suomenruotsin opiskelijoille. | icon-question-circle | ![]() | |||
FinMeter | FinMeter - Työkaluja suomenkielisen runouden analysointiin | FinMeter on kirjasto suomenkielisen runouden analysointiin. Se käsittelee tyypillistä riimittelyä, kuten allitteraatiota, assonanssia ja konsonanssia, japanilaista metriikkaa ja Kalevalan metriikkaa. Sitä voidaan käyttää myös suomen kielen yhdyssanoihin ja metrin analysointiin. Lisäksi sillä voidaan tehdä semanttista klusterointia, metaforatulkintaa, konkretiapisteytystä ja sentimenttianalyysiä. | ![]() | ||||
FinTag | Finnish Tagtools | Suomenkielisen tekstin morfologinen taggeri ja nimentunnistus. | Asennus, Docker-käyttö | icon-question-circle | ![]() | A | |
FinnONTO | FinnONTO | Finnish and international ontologies, vocabularies and thesauri needed for publishing content cost-efficiently on the Semantic Web. | icon-question-circle | ||||
finnsurveytext | finnsurveytext | Työkalupaketti yhteiskuntatieteiden tutkijoille, jotta he voivat analysoida ja ymmärtää kyselytutkimuksissaan avoimiin kysymyksiin annettuja vastauksia. | Ohjeet | Asennus (GitHub) | icon-question-circle | ||
Gephi | Gephi | Ohjelma verkkoanalyysiin ja visualisointiin. | Asennus | ||||
GiellaLT | GiellaLT | GiellaLT tarjoaa infrastruktuurin sääntöpohjaiselle kieliteknologialle, joka on suunnattu vähemmistö- ja alkuperäiskielille. | icon-question-circle | ||||
Giellatekno | Giellatekno - Sanakirjat ja työkalut | Sanakirjat ja työkalut saamen ja muiden morfologialtaan rikkaiden kielten kielitieteellisen ja kieliteknologisen tutkimukseen. | icon-question-circle | ||||
HeLI-OTS | HeLI-OTS 2.0 | HeLI-menetelmään perustuva kielentunnistin valmiilla kielimalleilla 200 kielelle. | Demo | icon-question-circle | ![]() | ||
![]() | INCEpTION | Annotaatiotyökalu. (uudempi versio WebAnnosta) | User Guide (engl.) | Standalone installation (engl.) | icon-question-circle | ![]() | A |
Demo | Kielipankin työkaludemoja | Kokoelma työkaluja ja resursseja, joita jalostetaan virallisempaan käyttöön: FinTag ja FiNER, FinParse, FinSentiment, FinnWordNet, HFST:n POS-taggerit, HFST:n morfologiset jäsentimet, Lemmamatch jne. | ![]() | C | |||
Kielitoimiston sanakirja | Kielitoimiston sanakirja | Kielitoimiston sanakirja on Kotimaisten kielten keskuksessa laadittu suomen yleiskielen sanakirja. | icon-question-circle | ![]() | |||
Kotus digitaaliset aineistot | Kotuksen digitaaliset aineistot | Kotuksen vapaasti käytettävät verkkoaineistot kootusti. | icon-question-circle | ![]() | |||
![]() | Lääketutka | Lääketutka tarjoaa analytiikkaa terveyteen, lääkkeisiin ja oireisiin liittyvistä Suomi24-keskustelufoorumin keskusteluista. | icon-question-circle | ![]() | C | ||
Murre | Murre | ![]() | |||||
nimiarkisto.fi | Nimiarkisto | Nimiarkisto.fi on paikka, johon kootaan digitaalisessa muodossa Suomesta kerätyt ja arkistoidut keskeiset nimiaineistot. | icon-question-circle | ![]() | |||
Nordic Tweet Stream (NTS) | Nordic Tweet Stream (NTS) search & visualization interface | Monikielinen monitorikorpus, joka sisältää maantieteellisesti paikannettuja twiittejä ja niihin liittyviä metatietoja Pohjoismaista. | icon-question-circle | ||||
![]() | OPUS | Avoin rinnakkaisaineisto. | icon-question-circle | ![]() | |||
![]() | Praat | Praat on kattava työkalupakki puheen ja muiden ääninäytteiden annotointiin, käsittelyyn, kuvantamiseen ja analyysiin. Praat sisältää oman skriptikielen. | Ohjeet | Asennus | icon-question-circle | ![]() | |
![]() | Proto-Indo-European Lexicon | Indoeurooppalaisten kielten generatiivinen etymologinen sanakirja. | icon-question-circle | ![]() | |||
Sanat | Sanat | Sanastojen ja luetteloiden julkaisemispalvelu. | icon-question-circle | ![]() | B | ||
![]() | Signbank | Suomalaisen viittomakielen leksikkotietokanta. | icon-question-circle | ![]() | A | ||
![]() | Sparv | Ruotsin Språkbankenin työkalupakki monikielisten tekstiaineistojen jäsentämiseen. | Käyttöohjeet (GUI) | Asennusohjeet | icon-question-circle | ![]() | |
Finnish Internet Parsebank: SETS | Syntaksipohjainen haku (SETS) Finnish Internet Parsebankista | Syntaksiin perustuva haku Finnish Internet Parsebankin osasta. | Dokumentaatio | ![]() | |||
tekstiks.ee | tekstiks.ee – Puheentunnistus: puheesta tekstiksi | Automaattisen puheentunnistuksen palvelu viron ja suomen kielille sekä käyttöliittymä transkription muokkaamiseen. | icon-question-circle | ||||
textreuse.sls.fi | Tekstin kierrätys ruotsinkielisessä lehdistössä 1645-1918 | Hakukone, jolla voi etsiä ja analysoida useaan kertaan esiintyviä tekstikatkelmia ja niistä muodostuvia klustereita ruotsinkielisissä lehdissä vuosina 1645-1918. | icon-question-circle | ||||
Terminology Forum | Terminology Forum | Terminology Forum – Eri alojen sanastojen linkkikokoelma, Vaasan yliopisto | icon-question-circle | ||||
Texthammer | Texthammer | Tampereen yliopiston tuottamien rinnakkaisaineistojen haku- ja analyysipalvelu | Ohjeet (PDF) | icon-question-circle | ![]() | ||
![]() | Tieteen termipankki | Kaikkien Suomessa harjoitettavien tieteenalojen yhteinen, avoin ja jatkuvasti päivitettävä termitietokanta tiedeyhteisön ja kansalaisten käyttöön. | icon-question-circle | ![]() | A | ||
![]() | Transkribus | Työkaluja historiallisten dokumenttien (esim. kuvien ja skannattujen tekstien) transkriptioon, annotointiin ja hallintaan. | Ohjeet (PDF) | Asennus | icon-question-circle | ![]() | |
TDPP-LBF | Turku Dependency Parser Pipeline, Kielipankin versio (TDPP-LBF) | Finnish Dependency Parsing Pipeline, muokannut Kielipankki | Asennus (GitHub) | icon-question-circle | ![]() | ||
Turku Neural Parser Pipeline | Turku Neural Parser Pipeline | Turku NLP -ryhmän kehittämä suomen kielen jäsennystyökalu. | Asennus (GitHub) Demo | icon-question-circle | ![]() | ||
TNPP-LBF | Turku Neural Parser Pipeline, Kielipankin versio (TNPP-LBF) | Turku Neural Parsing Pipeline, muokannut Kielipankki | Puhti Asennus (Docker) | icon-question-circle | ![]() | ||
TDPP | TurkuNLP:n kehittämä suomen dependenssijäsennin (TDPP) | TurkuNLP-ryhmän kehittämä avoimen lähdekoodin dependenssijäsennysputki suomenkielisen tekstin analysointiin. | Asennus (GitHub) | icon-question-circle | ![]() | ||
TurkuNLP word embedding | TurkuNLP word embedding demo (word2vec) | Turku NLP -ryhmän kehittämä demotyökalu, jolla voidaan tutkia semanttista samankaltaisuutta. | icon-question-circle | ![]() | |||
UDPipe | UDPipe | UDPipe on koulutettavissa oleva putki CoNLL-U-tiedostojen saneistamista, taggausta, perusmuotoistamista ja dependenssijäsentämistä varten. | Asennus (GitHub) | icon-question-circle | |||
UDPipe-LBF | UDPipe Kielipankin versio | UDPipe on koulutettavissa oleva putki CoNLL-U-tiedostojen saneistamista, taggausta, perusmuotoistamista ja dependenssijäsentämistä varten. Asennettu Kielipankissa | Puhti | icon-question-circle | ![]() | ||
UralicNLP | UralicNLP - Luonnollisen kielen käsittelyä monilla eri kielillä | UralicNLP:llä voi tuottaa tekstistä morfologisia analyyseja, generoida morfologisia muotoja, perusmuotoistaa sanoja ja saada leksikaalista tietoa sanoista uralilaisissa ja muissa kielissä. Toiminnallisuudet pohjautuvat pääosin FST-työkaluihin sekä GiellaLT-infrastruktuurissa ja Apertiumissa tuotettuihin sanakirjoihin. | ![]() | ||||
VRT Tools | VRT-työkalut | Komentorivityökaluja, joilla voi käsitellä segmentoitua ja annotoitua tekstiä käyttäen väliformaattina VRT-muotoa (VRT = Verticalized Text). VRT liittyy Corpus WorkBenchiin, jota käytetään Korp-konkordanssityökalun backendissä. | GitHub | ![]() | A | ||
Wanca | Wanca | Wanca on uralilaisten kielten portaalisivusto. | icon-question-circle | ![]() | A | ||
WebMAUS | WebMAUS | Työkaluja puheen automaattiseen segmentaatioon ja annotointiin. | Ohje | ||||
Whisper | Whisper | Whisper on yleiskäyttöinen puheentunnistusmalli, joka on opetettu laajalla ja monipuolisella ääniaineistolla. Whisperillä voi tehdä monikielistä puheentunnistusta, puheen käännöksiä ja kielentunnistusta. Whisperiä voi käyttää CSC:n laskentaympäristössä ja myös SD Desktopissa. | Tutorial (CSC) | GitHub: Whisper (OpenAI) and WhisperDO for calling Whisper (by Nicholas G. Cotton) | Tutorial (CSC) | ![]() | A |