Valitse kohdassa Mode: vaihtoehdot ”N-gram within annotation”, ”case-insensitive” ja ”regular expression”. N-gram within annotation -valinnalla sanaesiintymät saa laskettua myös yksittäisen annotaation sisältä, jos annotaatio on monisaneinen. Regular expression -valinta tuo käyttöön ns. säännölliset lausekkeet.
Kirjoita Find-hakukenttään \w
Tällä tavalla sanoiksi lasketaan vain kirjaimia tai numeroita sisältävät merkkijonot, jotka on eroteltu toisistaan välilyönneillä tai muilla erottimilla.
Valitse hakutekstikentän oikealla puolella olevasta valikosta ne kerrokset tai kerrostyypit, jotka haluat mukaan laskelmaan. Huom. Sopiva valinta on korpuskohtainen, ts. sinun on ensin tiedettävä, mitä annotaatiokerroksia korpus sisältää ja kuinka ne on mahdollisesti tyypitetty.
Esimerkiksi Reitti A-siipeen -korpuksen kohdalla voi valita ”Tier type: utterance”, jolloin saneet etsitään yhdellä kertaa niistä kerroksista, jotka sisältävät (kumman tahansa puhujan) puheen litteraatin.
Esim. Helpuhe1-korpuksessa voi laskea erikseen ensin speech-tyyppiset kerrokset (=haastateltavien puheen litteraatit) ja sitten interviewer speech-tyyppiset kerrokset (=haastattelijoiden puheen litteraatit). Näiden summa kertoo aineiston kokonaissanemäärän.
Klikkaa lopuksi Find ja odota hetki, niin kokonaissanemäärä ilmestyy tekstikentän alapuolelle, Ready-tekstin viereen. Esimerkiksi tulos 166 hits in 47 annotations tarkoittaa, että valitusta aineistosta löytyi 166 sanetta (yhteensä 47 annotoidussa puhunnoksessa tai muussa litteroidussa pätkässä). |