HUOMAA: FinnWordNetin tiedot siirtyivät tähän paikkaan 2019-09-19. FinnWordNetin demojen ja ladattavien tiedostojen osoitteet ovat muuttuneet, eivätkä nykyiset osoitteet ole välttämättä lopulliset. Demot ja tiedostojen lataus olivat poissa käytöstä maaliskuusta kesäkuuhun 2018. Edelleenkään kaikki demot eivät toimi, ja palautelomake on poissa käytöstä. Pahoittelemme asiaa. (Päivitetty 2019-09-19.)
FinnWordNet – Finnish WordNet – suomen wordnet on suomen kielen leksikaalinen tietokanta. Se on osa FIN-CLARIN-infrastruktuurihanketta.
FinnWordNet on lisensoitu Creative Commons Nimeä (CC-BY) 3.0 -lisenssillä. Koska FinnWordNet on Princeton WordNetin johdannainen, sitä koskee myös Princeton WordNetin lisenssi.
FinnWordNetissä sanat (substantiivit, verbit, adjektiivit ja adverbit) on ryhmitelty merkityksen mukaan käsitteitä edustaviksi synonyymijoukoiksi. Nämä synonyymijoukot on linkitetty toisiinsa erilaisilla suhteilla, kuten alakäsite- ja vastakohtasuhteilla, jolloin muodostuu semanttinen verkko.
FinnWordNetiä voi hyödyntää kieliteknologian tutkimuksessa ja sovelluksissa. Sitä voi käyttää myös interaktiivisesti elektronisena tesauruksena tai kaksikielisenä suomi–englanti–suomi-sanakirjana.
FinnWordNetin ensimmäinen versio on luotu käännättämällä ammattikääntäjillä alkuperäisen englannin (Princetonin) WordNetin (version 3.0) sanat suomeksi.
FinnWordNetin tuorein versio on 2.0, joka julkaistiin lokakuussa 2012. Tämän version pysyvä tunniste on urn:nbn:fi:lb-2014052714.
Vaikka FinnWordNetiä ei parhaillaan kehitetäkään aktiivisesti, voit lähettää palautetta siitä osoitteella fin-clarin (ät) helsinki.fi.
Huomaa, että hankkeen ja kielivaran nimi on FinnWordNet (kahdella n:llä), ei FinWordNet.
FinnWordNetin sisältöä voi hakea tai katsella muutaman eri hakuliittymän tai demon kautta. Useimmat hakuliittymät ovat englanninkielisiä.
wn
-ohjelmaanHuomaa, että näiden demojen käyttämät transduktorit perustuvat yhä FinnWordNetin versioon 1.1.2, ei tuoreimpaan versioon 2.0.
FinnWordNetin datatiedostot voi ladata Kielipankin latauspalvelusta ZIP-pakettina, joka sisältää datan muutamassa eri muodossa:
Lisätietoja on README-tiedostossa (englanniksi, itse latauspaketin sisällä myös suomeksi).
Lisäksi paketti sisältää Princetonin WordNet 3.0 Grind -ohjelman version, jota on muokattu tukemaan FinnWordNetin dataa. Koska latauspaketti sisältää käännetyt WordNet-datatiedostot, muokattua Grind-ohjelmaa tarvitsee lähinnä vain silloin, jos muokkaa FinnWordNetin sisältöä (lexicographer-tiedostoja). Ohjelman kääntäminen edellyttää Unix-, Linux- tai vastaavaa ympäristöä sekä C-kääntäjää; lisätietoa on Grind-hakemiston sisällä olevassa README-tiedostossa.
Huomaa myös, että FinnWordNet-datatiedostojen käyttäminen wn
-hakuohjelmalla edellyttää Debianin korjaamaa ohjelmaversiota.
Huomaa, että transduktorit eivät ole tällä hetkellä ladattavissa. Pahoittelemme tilannetta. (2019-09-19)
FinnWordNetin (ja Princeton WordNetin) sisältö on pohjana myös HFST-muotoisissa äärellisissä transduktoreissa, jotka toimivat suomen tai englannin synonyymisanakirjoina tai suomi–englanti- tai englanti–suomi-käännössanakirjoina. Transduktorit tunnistavat sanat myös taivutetuissa muodoissa, ja synonyymisanakirjoista on versiot, jotka tuottavat synonyymit syötesanan taivutusmuodossa. Lisätietoa transduktoreista on README-tiedostossa.
Transduktorien käyttämiseen tarvitsee joko täyden HFST-kirjaston ja -työkalut (version 3.2.0 tai uudemman), erillisen HFST optimized lookup -ohjelman (version 1.3 tai uudemman) tai optimized lookupin Java-toteutuksen (2011-05-23 tai uudemman).
FinnWordNet-data on ladattavissa myös kahdessa eri XML-muodossa Open Multilingual Wordnet -sivulta: WN-LMF (WordNet Lexical Markup Framework) ja Lemon (The Lexicon Model for Ontologies): lataa ZIP-paketti.
Frankie Robertson on tehnyt FinnWordNet-dataan muutamia teknisiä korjauksia ja muutoksia, jotta se toimisi NLTK– ja extJWNL-kirjastojen kanssa. Korjattu versio on saatavilla GitHubissa. Korjaukset eivät ole vielä osana virallista FinnWordNet-dataa.
FinnWordNetin kehityshanke oli käynnissä vuosina 2010–2012. FinnWordNetin kehitystä rahoittivat FIN-CLARIN- ja META-NORD-hankkeet. META-NORD-hanke sai rahoitusta Euroopan unionin tieto- ja viestintätekniikkapolitiikan tukiohjelmalta (ICT Policy Support Programme) osana kilpailukyky- ja innovaatiopuiteohjelmaa avustussuopimuksella 270899.
Seuraavat ihmiset osallistuivat FinnWordNet-hankkeeseen:
FinnWordNetin kotisivu on siirretty Kielipankki-portaaliin, ja FinnWordNet-data on ladattavissa Kielipankin latauspalvelusta. Kotisivun tietoja on myös päivitetty. Demojen ja transduktorien osalta päivittäminen on vielä osittain kesken.
FinnWordNetin datasta on julkaistu versio 2.0, johon on lisätty tuhansia sananmerkityksiä ja satoja olemassa olleita on korjattu. Uusi versio on ladattavissa ja käytössä WWW-hakuliittymässä. Hakuliittymä ei enää pyydä arvioimaan satunnaisesti valittujen sanojen synonymiaa.
Versiossa 2.0 FinnWordNetiä on laajennettu Princeton WordNetin käännöksestä lisäämällä uusia synonyymijoukkoja olemassa olevien synonyymijoukkojen alakäsitteiksi (ilman selitteitä ja englanninkielisiä käännöksiä). Uudet synonyymijoukot vastaavat yleisten suomenkielisten yhdyssanojen merkityksiä.
Datan ensisijainen muoto on nyt relaatiopohjainen; lisätietoja latauspaketin vastaavasta LUEMINUT-tiedostosta.
FinnWordNet 2.0 sisältää 120 449 synonyymijoukkoa (2 790 enemmän kuin versiossa 1.1.2), 208 645 sananmerkitystä (16 845 enemmän), 140 515 erilaista sanaa (9 251 enemmän) ja 244 742 käännössuhdetta (14 695 enemmän). Jotkin korjaukset ja lisäykset perustuvat FinnWordNetin käyttäjiltä hakuliittymän kautta saatuihin ehdotuksiin. Kaikki palaute on edelleen tervetullutta: fin-clarin (ät) helsinki.fi.
Lisätietoja uudesta versiosta on latauspaketin UUTISET-tiedostossa.