17.6.2023

Uusi aineistoversio (beta): Kansalliskirjaston lehtikokoelman (KLK) suomenkieliset lehdet, versio 2

Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus versio 2, Korp (klk-fi-v2-korp) on nyt käytettävissä beetatestiversiona Korpissa. Aineisto kuuluu Kielipankissa ”KLK”-aineistoryhmään.

Aineisto sisältää Kansalliskirjaston lehtikokoelman sanoma- ja aikakauslehtiä vuosilta 1771–2021. Aineistossa on yhteensä yli 22 miljardia sanetta eli yli neljä kertaa niin paljon kuin aineiston edellisessä versiossa. Paljon uutta aineistoa on määrällisesti etenkin vuosilta 1911–1945, suhteellisesti myös vuosilta 1946–2000 ja kokonaan uutena vuosilta 2001–2021. Aineisto on jaettu Korpin aineistovalikossa osakorpuksiin lehtien julkaisuvuosien mukaan.

Aineiston kuvailutiedot: http://urn.fi/urn:nbn:fi:lb-202009152
Avaa aineisto Korp-palvelussa

Hyvä tietää

Aineiston suuren koon vuoksi Korp-haut voivat olla hitaita, joten kannattaa ainakin ensin kokeilla hakuja pienehköllä osalla aineistoa. Jos aineiston osan (vuosien) valinta Korpin aineistovalikossa vaikuttaa hitaalta, kannattaa kokeilla käynnistää selain uudelleen tai kokeilla toista selainta.

Korpuksen sanakuvatoiminto ei ole vielä kaikkien vuosien osalta käytettävissä. Sanakuvien tuonti korpustietokantaan on meneillään, mutta sen valmistuminen koko aineistolle kestää vielä joitakin viikkoja.

Aineiston virkkeiden kieli on tunnistettu HeLI-OTS-kielentunnistimella. Aineisto sisältää ne tekstit (lehden sivut), joilla vähintään yksi virke on tunnistettu suomeksi, seuraavista lähdeaineistoista: Kansalliskirjaston lehtikokoelman suomenkielinen osakorpus (versio 1); Kansalliskirjaston lehtikokoelman ruotsinkielinen osakorpus (versio 1); sekä Kansalliskirjaston vuoden 2013 jälkeen tuottama aineisto, jota ei ole aiemmin ollut saatavilla Kielipankissa.

Aineistossa olevat linkit sivun kuviin ja PDF-tiedostoihin vievät Kansalliskirjaston digitaalisten aineistojen verkkosivuille. Useimmille vuotta 1939 uudemmille lehdille sivun kuvien ja PDF-tiedostojen käyttö on sallittu vain tutkimustarkoituksiin ja edellyttää kirjautumista ja käyttölupalomakkeen täyttämistä Kansalliskirjaston palvelussa.

Kuten aina, palaute aineistosta on tervetullutta joko palautelomakkeen kautta tai sähköpostitse osoitteella fin-clarin (ät) helsinki.fi.

 

Korpin trendikuvaaja sanan 'korona' eri muotoisista osumista korpuksessa klk-fi-v2.

Korpin konkordanssinäkymä sanan 'korona' eri muotoisista osumista korpuksessa klk-fi-v2.