Kielipankin ylläpitämät työkalut ja palvelut voivat olla käytettävissä verkkosivustolla tai ladattavissa omalle koneelle latauspalvelusta (esim. GitHub tai Korp). Tältä sivulta löydät myös muita FIN-CLARINin tai CLARIN ERICin jäsenorganisaatioiden kehittämiä työkaluja.
Kielipankin aineistoilla on kolme tukitasoa.
A: Kielivaraa kehitetään ja parannetaan aktiivisesti. Kielipankki korjaa aineistoon liittyvät ongelmat mahdollisimman nopeasti.
B: Kielivaraa kehitetään ainoastaan käyttäjien pyynnöstä. Kielipankki pyrkii korjaamaan ongelmia, mutta se saattaa edellyttää ulkopuolista työpanosta.
C: Kielivara on saatavilla sellaisenaan. Kielipankki ei korjaa eikä kehitä aineistoa.
Etsi muita saatavilla olevia työkaluja: CLARIN, CLARIN Virtual Language Observatory (VLO)
Löydät yleiskatsauksen kaikista aineistoistamme lajiteltuna aineistoperheiden mukaan FIN-CLARIN-aineistoperheet -sivulta.
Käynnistä työkalu | Nimi | Kuvaus | Ohjeet | Asentaminen | Info | Ylläpitäjä | Tukitaso |
---|---|---|---|---|---|---|---|
Korp | Selainpohjainen konkordanssityökalu, jolla voi tehdä hakuja tekstiaineistoista morfosyntaktisen jäsennyksen perusteella. | Ohjeet | A | ||||
Lataus | Latauspalvelu | Lataa aineistoja omalle koneellesi. | A | ||||
Sanat | Sanat | Sanastojen ja luetteloiden julkaisemispalvelu. | B | ||||
FinTag | Finnish Tagtools | Suomenkielisen tekstin morfologinen taggeri ja nimentunnistus. | Asennus, Docker-käyttö | A | |||
Demo | Kielipankin työkaludemoja | Kokoelma työkaluja ja resursseja, joita jalostetaan virallisempaan käyttöön: FinTag ja FiNER, FinSentiment, FinnWordNet, HFST:n POS-taggerit, HFST:n morfologiset jäsentimet, Lemmamatch jne. | C | ||||
INCEpTION | Annotaatiotyökalu. (uudempi versio WebAnnosta) | User Guide (engl.) | Standalone installation (engl.) | A | |||
Signbank | Suomalaisen viittomakielen leksikkotietokanta. | A | |||||
OPUS | Avoin rinnakkaisaineisto. | ||||||
Tieteen termipankki | Kaikkien Suomessa harjoitettavien tieteenalojen yhteinen, avoin ja jatkuvasti päivitettävä termitietokanta tiedeyhteisön ja kansalaisten käyttöön. | A | |||||
Lääketutka | Lääketutka tarjoaa analytiikkaa terveyteen, lääkkeisiin ja oireisiin liittyvistä Suomi24-keskustelufoorumin keskusteluista. | C | |||||
ANEE Lexical Networks | ANEE Lexical Networks | ANEE:n leksikaalinen portaali on graafinen semanttinen sanakirja, joka on esitetty verkostona. Portaalissa voi tutkia yksikkömuotoisten akkadinkielisten sanojen merkityksiä visuaalisella tavalla. | |||||
Proto-Indo-European Lexicon | Indoeurooppalaisten kielten generatiivinen etymologinen sanakirja. | ||||||
Wanca | Wanca | Wanca on uralilaisten kielten portaalisivusto. | A | ||||
TNPP-LBF | Turku Neural Parser Pipeline, Kielipankin versio (TNPP-LBF) | Turku Neural Parsing Pipeline, muokannut Kielipankki | Puhti Asennus (Docker) | ||||
Turku Neural Parser Pipeline | Turku Neural Parser Pipeline | Turku NLP -ryhmän kehittämä suomen kielen jäsennystyökalu. | Asennus (GitHub) Demo | ||||
TDPP-LBF | Turku Dependency Parser Pipeline, Kielipankin versio (TDPP-LBF) | Finnish Dependency Parsing Pipeline, muokannut Kielipankki | Asennus (GitHub) | ||||
TDPP | TurkuNLP:n kehittämä suomen dependenssijäsennin (TDPP) | TurkuNLP-ryhmän kehittämä avoimen lähdekoodin dependenssijäsennysputki suomenkielisen tekstin analysointiin. | Asennus (GitHub) | ||||
UDPipe-LBF | UDPipe Kielipankin versio | UDPipe on koulutettavissa oleva putki CoNLL-U-tiedostojen saneistamista, taggausta, perusmuotoistamista ja dependenssijäsentämistä varten. Asennettu Kielipankissa | Puhti | ||||
UDPipe | UDPipe | UDPipe on koulutettavissa oleva putki CoNLL-U-tiedostojen saneistamista, taggausta, perusmuotoistamista ja dependenssijäsentämistä varten. | Asennus (GitHub) | ||||
TurkuNLP word embedding | TurkuNLP word embedding demo (word2vec) | Turku NLP -ryhmän kehittämä demotyökalu, jolla voidaan tutkia semanttista samankaltaisuutta. | |||||
Finnish Internet Parsebank: SETS | Syntax-based search (SETS) from the Finnish Internet Parsebank | Syntaksiin perustuva haku Finnish Internet Parsebankin osasta. | Dokumentaatio | ||||
FinBERT | FinBERT | Suomelle harjoitettu BERT malli. | Asennus(GitHub) | ||||
Texthammer | Texthammer | Tampereen yliopiston tuottamien rinnakkaisaineistojen haku- ja analyysipalvelu | Ohjeet (PDF) | ||||
nimiarkisto.fi | Nimiarkisto | Nimiarkisto.fi on paikka, johon kootaan digitaalisessa muodossa Suomesta kerätyt ja arkistoidut keskeiset nimiaineistot. | |||||
Terminology Forum | Terminology Forum | Terminology Forum – Eri alojen sanastojen linkkikokoelma, Vaasan yliopisto | |||||
Sparv | Ruotsin Språkbankenin työkalupakki monikielisten tekstiaineistojen jäsentämiseen. | Käyttöohjeet (GUI) | Asennusohjeet | ||||
WebMAUS | WebMAUS | Työkaluja puheen automaattiseen segmentaatioon ja annotointiin. | Ohje | ||||
Transkribus | Työkaluja historiallisten dokumenttien (esim. kuvien ja skannattujen tekstien) transkriptioon, annotointiin ja hallintaan. | Ohjeet (PDF) | Asennus | ||||
Aalto-ASR | Aalto University Automatic Speech Recognition System | Puheentunnistin, jota voi käyttää CSC:n laskentaympäristössä sekä rajoitetusti myös Mylly-palvelun kautta. | Ohjeet | Asennus (GitHub) | |||
ELAN | ELAN on ohjelma, jolla voi litteroida ja annotoida ääni- ja videotiedostoja. Sillä voi myös tehdä hakuja paikallisesti tallennetuista annotoiduista aineistoista. | Ohjeet | Asennus | ||||
Praat | Praat on kattava työkalupakki puheen ja muiden ääninäytteiden annotointiin, käsittelyyn, kuvantamiseen ja analyysiin. Praat sisältää oman skriptikielen. | Ohjeet | Asennus | ||||
CLARIN Federated Content Search | Hae keskitetysti kaikkien CLARIN-keskusten aineistoista. | ||||||
Gephi | Gephi | Ohjelma verkkoanalyysiin ja visualisointiin. | Asennus | ||||
LAT (Language Archive Tools) | Annotoitujen ääni- ja videoaineistojen selailun, hakujen ja jakamisen työkalupakki. | Ohjeet | C | ||||
digi.kansalliskirjasto.fi | Digitaaliset aineistot | Kansalliskirjaston palvelu, jossa voi tehdä hakuja digitaalisista kokoelmista ja ladata sisältöjä omalle koneelle. Sanoma- ja aikakauslehtien lisäksi Digissä on myös mm. kirjoja, kuvia, karttoja, nuotteja jne. Huomaa, että suuri osa lehtiaineistoista on käytettävissä myös Kielipankin Korp-palvelun kautta (ks. KLK). | |||||
textreuse.sls.fi | Tekstin kierrätys ruotsinkielisessä lehdistössä 1645-1918 | Hakukone, jolla voi etsiä ja analysoida useaan kertaan esiintyviä tekstikatkelmia ja niistä muodostuvia klustereita ruotsinkielisissä lehdissä vuosina 1645-1918. | |||||
FinnONTO | FinnONTO | Finnish and international ontologies, vocabularies and thesauri needed for publishing content cost-efficiently on the Semantic Web. | |||||
Kielitoimiston sanakirja | Kielitoimiston sanakirja | Kielitoimiston sanakirja on Kotimaisten kielten keskuksessa laadittu suomen yleiskielen sanakirja. | |||||
HeLI-OTS | HeLI-OTS 2.0 | HeLI-menetelmään perustuva kielentunnistin valmiilla kielimalleilla 200 kielelle. | |||||
Kotus digitaaliset aineistot | Kotuksen digitaaliset aineistot | Kotuksen vapaasti käytettävät verkkoaineistot kootusti. | |||||
Giellatekno | Giellatekno - Sanakirjat ja työkalut | Sanakirjat ja työkalut saamen ja muiden morfologialtaan rikkaiden kielten kielitieteellisen ja kieliteknologisen tutkimukseen. | |||||
GiellaLT | GiellaLT | GiellaLT tarjoaa infrastruktuurin sääntöpohjaiselle kieliteknologialle, joka on suunnattu vähemmistö- ja alkuperäiskielille. | |||||
FinMeter | FinMeter - Työkaluja suomenkielisen runouden analysointiin | FinMeter on kirjasto suomenkielisen runouden analysointiin. Se käsittelee tyypillistä riimittelyä, kuten allitteraatiota, assonanssia ja konsonanssia, japanilaista metriikkaa ja Kalevalan metriikkaa. Sitä voidaan käyttää myös suomen kielen yhdyssanoihin ja metrin analysointiin. Lisäksi sillä voidaan tehdä semanttista klusterointia, metaforatulkintaa, konkretiapisteytystä ja sentimenttianalyysiä. | |||||
Murre | Murre | ||||||
UralicNLP | UralicNLP - Luonnollisen kielen käsittelyä monilla eri kielillä | UralicNLP:llä voi tuottaa tekstistä morfologisia analyyseja, generoida morfologisia muotoja, perusmuotoistaa sanoja ja saada leksikaalista tietoa sanoista uralilaisissa ja muissa kielissä. Toiminnallisuudet pohjautuvat pääosin FST-työkaluihin sekä GiellaLT-infrastruktuurissa ja Apertiumissa tuotettuihin sanakirjoihin. | |||||
Annif | Annif | Annif on Kansalliskirjastossa kehitettävä avoimen lähdekoodin työkalu, jolla voi automaattisesti etsiä asiasanoja tekstille. | |||||
tekstiks.ee | tekstiks.ee – Puheentunnistus: puheesta tekstiksi | Automaattisen puheentunnistuksen palvelu viron ja suomen kielille sekä käyttöliittymä transkription muokkaamiseen. | |||||
finnsurveytext | finnsurveytext | Työkalupaketti yhteiskuntatieteiden tutkijoille, jotta he voivat analysoida ja ymmärtää kyselytutkimuksissaan avoimiin kysymyksiin annettuja vastauksia. | Ohjeet | Asennus (GitHub) | |||
Nordic Tweet Stream (NTS) | Nordic Tweet Stream (NTS) search & visualization interface | Monikielinen monitorikorpus, joka sisältää maantieteellisesti paikannettuja twiittejä ja niihin liittyviä metatietoja Pohjoismaista. | |||||
Mylly | Mylly (poistunut käytöstä) | Aineistojen käsittelyalusta. | Ohjeet | C |