Mylly on kieliaineiston käsittelyyn ja tutkimiseen tarkoitettu alusta. Voit viedä Myllyyn omia kieliaineistojasi ja käsitellä ja analysoida niitä erilaisilla työkaluilla helppokäyttöisessä työtilassa. Myllyssä voit esimerkiksi jäsentää tekstiä automaattisesti. Myllystä käsin voi myös tehdä hakuja joihinkin Korp-konkordanssityökalun suojaamattomiin aineistoihin ja Korpista saatuja hakutuloksia voi käsitellä edelleen Myllyssä.
Mylly pohjautuu CSC – Tieteen tietotekniikan keskuksen kehittämään Chipster-teknologiaan. Mylly on päivittynyt keväällä 2019. Aiempi Java-pohjainen versio on poistunut käytöstä.
Esimerkiksi raakatekstiä (plain text) sisältävää aineistoa on mahdollista esikäsitellä Myllyssä, jotta saadaan aikaan erilaisten analyysityökalujen tarvitsema tekstin rakenne. Tekstin segmentointityökalulla tekstistä voidaan automaattisesti etsiä ja merkitä esimerkiksi kappaleenvaihtokohdat, ja näin syntyy HRT-muotoisia tekstitiedostoja. HRT-tiedoston käsittelyä puolestaan voidaan jatkaa saneistamalla eli ”tokenisoimalla” se VRT-muotoiseksi (VeRticalized Text). VRT-tiedostossa jokainen alkuperäisessä tekstissä esiintynyt sane kirjataan omalle rivilleen. Suomen-, ruotsin- tai englanninkielistä raakatekstiä voi jäsentää useilla jäsentimillä suoraan Myllyssä ja suomenkieliseen aineistoon voi käyttää myös automaattista nimiluokitinta.
Toinen Myllyn työkaluryhmä sisältää VRT-muotoisen tekstin käsittelyyn tarkoitettuja työkaluja. Jos tai kun tekstisi on VRT-muotoista, voit validoida sen Myllyssä. Sen jälkeen voit esimerkiksi tehdä siitä hakuja. Voit tarvittaessa nimetä uudelleen tulostiedostosi sarakkeita jatkokäyttöä varten. Tässä vaiheessa voit myös käyttää nimiluokitinta ja jäsentää aineiston kahdella eri jäsentimellä.
Monet Myllyssä olevat työkalut tuottavat TSV-muotoisia tekstitiedostoja (Tab-separated values). TSV-tiedosto voidaan näyttää taulukkona, jonka sarakkeet on TSV-tiedostossa erotettu toisistaan sarkainmerkeillä. TSV-muotoisena tiedostona voidaan käsitellä vaikkapa jostakin aineistosta haettu tietyn ilmauksen konkordanssi tai muuta taulukkomuotoista sisältöä. TSV-tiedoston voi myös helposti ladata Myllystä omalle koneelle ja tuoda sisällön esimerkiksi Excel-taulukkoon tai tilasto-ohjelmaan jatkokäsiteltäväksi.
Lyhyitä esimerkkejä Myllyn käytöstä (PDF, esitelmä Kielitieteen päivillä 2017; vanha Mylly-versio)