Suomi24-aineiston uusi versio 2017H2 on nyt kokeiltavissa Kielipankin Korp-konkordanssipalvelussa, https://korp.csc.fi/#?corpus=suomi24_2017h2
(Jos aineisto ei vielä näy, lataa sivu uudelleen ja tyhjennä tarvittaessa selaimen välimuisti.)
Uuden aineistoversion kuvailutietue: http://urn.fi/urn:nbn:fi:lb-2019021101
Aineisto näkyy Korpissa toistaiseksi beta-merkittynä, mikä tarkoittaa sitä, että voimme tehdä siihen muutoksia ilman eri ilmoitusta ja uuden version julkaisemista. Tämän vuoksi on varminta, ettei beta-version pohjalta tehdä sellaista tutkimusta, joka on välttämätöntä voida toistaa myöhemmin täsmälleen samanlaisena. Erityisiä muutoksia ei ole tiedossa, mutta niitä voidaan tehdä palautteen pohjalta. Beta-vaihe kestää arviolta 2–4 viikkoa, ellei suuria muutostarpeita ilmene.
Otamme mielellämme vastaan kommentteja, kehitys- ja parannusehdotuksia sekä muuta palautetta aineistosta ja erityisesti sen Korp-muodosta. Voit lähettää palautetta esimerkiksi Korpin palautelomakkeen kautta.
Suomi24-aineiston uuden version Korp-muodossa on jonkin verran eroja aiempaan versioon. Erot on kuvattu alla.
Lopullinen aineistoversio viedään myös Kielipankin latauspalveluun Korp-muotoa vastaavassa VRT-muodossa. (Alustava VRT-muoto on jo latauspalvelussa saatavilla, mutta Korpissa koekäytettävä versio eroaa siitä pieneltä osin.)
Suomi24 2017H2 kattaa Allerilta saadun Suomi24-aineiston ajalta 1.1.2001–31.12.2017. (Versiotunnus 2017H2 ilmaisee, että korpus kattaa aineiston vuoden 2017 loppuun asti.)
Kattavuus on selvästi aiempaa versiota parempi, mutta poistetut viestit ja suljetut keskusteluketjut eivät siinä näy, kuten eivät Suomi24-palvelussakaan. Kaikkiaan uudessa aineistossa on 82 858 608 viestiä ja 4 132 665 850 sanetta, kun aiemmassa versiossa oli 55 250 113 viestiä ja 2 663 114 497 sanetta.
Korpissa uuden version konkordanssihaut ja tilastot toimivat, mutta sanakuva ei vielä tällä hetkellä toimi.
Aineistolle ei ole vielä ajettu nimientunnistinta, joten sen lisäämät tiedot puuttuvat toistaiseksi. Ne pyritään lisäämään lähiaikoina, joka tapauksessa tämän kevään aikana.
Aineisto näkyy Korpin korpusvalikossa aiemman Suomi24:n rinnalla, toistaiseksi nimellä ”Suomi24 virkkeet -korpus (2017H2) (beta)”. Aiemmasta versiosta poiketen aineisto on jaettu osakorpuksiin viestien kirjoitusvuoden perusteella.
Koska Suomi24:n edellistä versiota (2016H2, vaikka tietoa ei Korpissa toistaiseksi näykään) on käytetty varsin paljon, myös se näkyy Korpin korpusvalikossa vielä ainakin jonkin aikaa, mahdollisesti pitkäänkin.
Mietimme, miten edellisen version olisi hyvä näkyä jatkossa: olisiko esimerkiksi hyvä merkitä vanhan aineiston kuvaukseen, että uudempi versio korvaa sen, tai olisiko hyvä, että korpusvalikon ”Valitse kaikki” ei valitsiskaan aineistojen vanhoja versioita. Yksi mahdollisuus olisi, että vanha versio olisi käytettävissä vain erillisessä ”arkisto-Korpissa”, joka sisältäisi aineistojen vanhoja versioita.
Kunkin vuoden sisällä aineisto on järjestetty niin, että kaikki saman viestiketjun viestit ovat peräkkäin. Viestiketjut puolestaan on järjestetty ketjun kyseisen vuoden ensimmäisen viestin päivämäärän mukaan. (Jos viestiketju on alkanut samana vuonna, järjestys on siis ketjun aloitusviestin perustella.)
Viestit kunkin viestiketjun (ja vuoden) sisällä on järjestetty ”ketjujärjestykseen”, jossa kommenttiviestit ovat kommentoidun viestin perässä aikajärjestyksessä. Tämän vastannee sitä järjestystä, jossa viestit näkyvät Suomi24-palvelun kautta.
Aiempaan versioon verrattuna tekstin piirteitä on nimetty uudelleen sekä sisäisiltä että Korpissa näkyviltä nimiltään, jotta ne olisivat ymmärrettävämpiä. Parannusehdotukset ovat tervetulleita.
Korpin hakutuloksen reunapalkissa tekstin piirteet näkyvät nyt seuraavasti. Sulkeissa on piirteen sisäinen nimi, joka ei näy reunapalkissa, mutta jota käytetään Korpin edistyneen haun ja Korp-APIn CQP-kyselylausekkeissa.
otsikko (text_title): Totuus 206:sta päiväys (text_date): 2001-01-01 kellonaika (text_time): 02:05:00 kirjoittajan nimimerkki (text_author): Haimsplitz kirjautunut käyttäjä (text_author_logged_in): ei rekisteröity nimimerkki (text_author_nick_registered): ei aihealue (text_topic_names): Ajoneuvot ja liikenne > Autot > Automerkit > Peugeot aihealue vain aikuisille (text_topic_adultonly): ei viestin tyyppi (text_msg_type): keskusteluketjun aloitus viesti on täysin tyhjä (text_empty): ei tunniste (text_id): 25383:0 keskusteluketjun tunniste (text_comment_id): 25383 keskusteluketjun alkuaikaleima (text_thread_start_datetime): 2001-01-01 02:05:00 kommentin tunniste (text_comment_id): 0 [ketjun aloitusviesti] kommentin vanhemman tunniste (text_parent_comment_id): 0 [ketjun aloitusviesti] kommentin vanhemman aikaleima (text_parent_datetime): [tyhjä] lainatun kommentin tunniste (text_comment_id): 0 [ei lainausta] tiedoston nimi (text_filename_vrt): s24_2001_01.vrt kappaleen tyyppi (paragraph_type): kappale
Tunniste (text_id) on yhdistelmä keskusteluketjun ja kommentin tunnisteesta. Sen sijaan kommentin vanhemman tunniste ja lainatun kommentin tunniste ovat nimenomaan kommentin tunnisteita saman ketjun sisällä. Tiedostonimi on uuden tiedostojaon mukainen, ei alkuperäisen datan mukainen.
Aivan kaikki tekstin piirteet eivät näy reunapalkissa, vaan Korpin laajennetussa haussa on mahdollista hakea erikseen myös esim. aihealueen ylimmän ja alimman tason perusteella. Laajennetussa haussa aihealueen ylimmälle tasolle on valintalista. Koko aihealueelle olisi mahdollista tehdä myös hierarkkinen valintalista (tai -dialogi), mutta sellaisen toteuttaminen on jonkin verran mutkikkaampaa.
Piirteiden nimet ja osin arvot eroavat myös aiemmasta Suomi24-versiosta, jossa ne olivat seuraavanlaiset:
otsikko (text_title): Totuus 206:sta otsikon sanojen perusmuodot (text_title_lemmas): totuus 206 : sta päiväys (text_date): 01.01.2001 kellonaika (text_time): 02:05 keskusteluketjun tunniste (text_tid): 25383 viestin tunniste (text_cid): unspecified pääaihealue (text_discussionarea): Ajoneuvot ja liikenne aihealueen tarkennus (text_subsections): Autot > Automerkit > Peugeot nimimerkki (text_anonnick): Haimsplitz nimimerkin sanojen perusmuodot (text_anonnick_lemmas): Haimsplitz
Mikäli vanhan version mukaisten sisäisten nimien näkyminen olisi mielestäsi tarpeen myös uudessa versiossa, jätäthän tästä palautetta. Joissain tapauksissa arvojoukko on muuttunut (esim. päiväys on nyt ISO-muodossa), jolloin taaksepäin yhteensopivuutta voi olla vaikea toteuttaa. Aihealue oli aiemmin jaettu pääaihealueeseen ja aihealueen tarkennukseen, mutta nyt koko aihealueketju on samassa piirteessä, ja lisäksi voi siis hakea aihealueen ylimmän tai alimman tason perusteella.
Uudessa versiossa ei ole aiempaan jälkeenpäin lisättyjä otsikon ja nimimerkin sanojen perusmuotoja. Otsikon sanojen perusmuodot ovat nyt osana itse tekstiä. Sen sijaan nimimerkin sanojen perusmuotoja ei nykyisellään ole lainkaan.
Aineistoon olisi mahdollista lisätä kohtuullisella vaivalla myös muiden tietojen perusteella laskettuja tekstin lisäpiirteitä, jos käyttäjät niitä toivovat.
Mahdollisia lisäpiirteitä olisivat ainakin seuraavat:
Kommenttien määrien osalta harkitaan vielä, pitäisikö niiden koskea yhtä vuotta vai kaikkia vuosia. Jos ne koskevat kaikkia vuosia, niitä täytyy päivittää, kun aineisto karttuu, mikä heikentäisi tutkimuksen toistettavuutta tältä osin, tai sitten pitäisi olla erilliset attribuutit jokaiselle uudelle (laajennetulle) aineistoversiolle.
Ajallinen etäisyys puolestaan voitaisiin ilmaista sekunteina, mahdollisesti sen lisäksi vuorokausina.
Nimitietoja lukuun ottamatta aineiston sanojen piirteet ovat samat kuin aiemmassa versiossa. Sanojen palauttamisessa perusmuotoon on joitain pieniä eroja ja tietyiltä osin perusmuotoistaminen on onnistunut heikommin kuin aiemmassa versiossa. Perusmuotoistaminen on kuitenkin tarkoitus tehdä uudelleen parannetulla menetelmällä, mahdollisesti jo tämän kevään kuluessa.
Kielipankin latauspalvelussa on aineistosta toistaiseksi alustava VRT-muotoinen versio:
http://urn.fi/urn:nbn:fi:lb-2019010802
Tämänhetkistä Korp-versiota vastaava VRT-versio on tarkoitus viedä latauspalveluun viimeistään beta-vaiheen päätyttyä. Eroja latauspalvelun tämänhetkiseen versioon ovat ainakin seuraavat:
Kaikki palaute tästä Suomi24-aineiston uudesta Korp-versiosta on tervetullutta!