Mikäli kieliaineistosi sisältää tekstiä, sen käsitteleminen on tehokkainta, jos aineisto on tallennettu raakatekstinä ja UTF-8-merkistökoodauksella. Tässä neuvotaan, miten se tapahtuu.
Jos tekstiä sisältävä aineistosi on tallennettu esimerkiksi Word-dokumentteina, voit käsitellä aineistoa vain Wordilla tai sen kanssa yhteensopivilla ohjelmilla. Word-dokumentti ei myöskään ole sellaisenaan arkistointikelpoinen muoto. Kun aineistosi on tallennettu raakatekstitiedostoina (plain text) ja lisäksi UTF-8-merkistökoodauksella, voit avata ja käsitellä tiedostoja tehokkaasti monenlaisilla kätevillä työkaluilla sekä Kielipankissa että sen ulkopuolella.
Raakatekstitiedosto sisältää kuitenkin vain merkkejä. Siihen eivät tallennu esimerkiksi Wordilla tehdyt tekstin asettelut, lihavointi tai kursiivi. Jos tarvitset tekstidokumenteista myös taitetut tai muotoillut versiot ihmisten luettaviksi, tallenna sellaiset erikseen. Pysyvää arkistointia varten taitetuista dokumenteista on syytä tehdä esimerkiksi pdf-muotoisia.
Tarvittaessa myös raakatekstin joukkoon voidaan lisätä erilaisia merkkauksia, joilla osoitetaan, missä kohtaa on vaikkapa kappaleen vaihto tai otsikko. Tällaiset merkkaukset kannattaa tehdä jossakin XML-yhteensopivassa muodossa (esim. TEI/XML), jolloin niitä voidaan ohjelmallisesti hyödyntää.
Jos alkuperäinen tiedosto on tehty Microsoft Word -ohjelmalla tai se on esim. RTF-muotoinen, toimi seuraavasti:
Unicode on kansainvälinen merkistöstandardi, jonka avulla lähes kaikki maailman kielet ja niissä käytetyt erikoismerkit voidaan kuvata yksiselitteisesti ja yhteensopivalla tavalla. Jokaisella Unicode-standardissa määritellyllä merkillä on yksilöllinen koodi. Koodeja on määritelty jopa yli 100 000 erilaiselle merkille. Unicode-standardi on otettu laajasti käyttöön, ja lähes kaikki nykyiset tekstiä prosessoivat sovellusohjelmat tukevat sitä.
UTF-8 on Unicode-standardin 8-bittinen koodaustapa. Se on osittain yhteensopiva niiden vanhempien järjestelmien kanssa, joissa merkkikoodeja käsitellään 8-bittisinä. UTF-8-muotoisen tiedoston sisältämät merkit näyttävät samoilta kaikilla tietokoneilla ja kaikissa käyttöjärjestelmissä, jos tiedostoa käytetään ohjelmalla, joka tukee Unicode-standardia ja UTF-8-tiedostoja. Useimmat nykyiset sovellukset tukevat ainakin UTF-8-merkistökoodausta.
UTF-16 on puolestaan Unicode-merkkien 16-bittinen koodaustapa, jossa jokaista merkkiä kuvataan aina kahden 8 bitin tavun muodostamana parina. UTF-16 on vielä hiukan harvinaisempi kuin UTF-8.
Kaikki Kielipankin tarjoamat työkalut edellyttävät, että käsiteltävät tekstitiedostot ovat UTF-8-muotoisia.
Voit esimerkiksi