5.8 SGML:n “suuret” sovellukset

SGML on eri puolilla maailmaa hyvin laajassa käytössä. Sen mukaisia tyyppimäärityksiä on tehty kaikkiin kuviteltavissa oleviin käyttötarkoituksiin ja osa näistä tyyppimäärityksistä on julkisia. On olemassa hyvin suppeita määrityksiä, kuten WWW:n hypertekstidokumenteissa käytettävä HTML (asiasta tarkemmin hiukan jäljempänä). Lisäksi on olemassa erittäin laajoja määrityksiä, joista käytän tässä nimitystä SGML:n “suuret” sovellukset. Esittelen muutamalla sanalla USA:n puolustushallinnon tekemää määritystä CALS ja humanistisen tutkimuksen käyttöön laadittua TEI-suositusta.

CALS Continuous Acquisition and Life-Cycle Support) on Yhdysvaltain puolustushallinnon tekemä SGML:n mukainen teknisten dokumenttien kuvausjärjestelmä. Kun muistetaan, että suurimpien suihkukoneiden tekninen dokumentaatio on niin laaja, että kone ei pysty nousemaan ilmaan, jos dokumentit lastataan siihen mukaan, on helposti ymmärrettävissä, että Yhdysvaltain armeijan dokumentaatio kokonaisuudessaan käsittää suunnattoman määrän aineistoa. Dokumentteja tarvitaan jatkuvasti ja niitä joudutaan käyttämään hyvinkin vaihtelevissa ja vaikeissa olosuhteissa. CALS:n kantavana ideana on tehdä dokumentaatiosta sellainen, että yksittäisiä dokumentteja voidaan atk:n keinoin muuntaa joustavasti muodosta ja laajuudesta toiseen niin, että kaikki kuviteltavissa olevat käyttötilanteet voidaan kattaa.

CALS:n DTD on vapaasti saatavissa ja sitä on hyödynnetty sekä Ruotsin että Suomen puolustushallinnon vastaavissa hankkeissa. Vaikka perusmääritys on saatu käyttöön veloituksetta, sen soveltamisessa paikallisiin olosuhteisiin ja tarpeisiin ja tarvittu useiden henkilötyövuosien työpanos.

TEI (Text Encoding Initiative) on humanistisen tutkimuksen puolella syntynyt aloite, jonka tarkoituksena on ollut luoda mahdollisimman pitkäikäinen dokumenttien kuvausjärjestelmä. Järjestelmää on tarkoitus käyttää mm. kirjallisuuden, kielitieteen, historian ja arkeologian dokumenttien kuvaamisessa ja tallentamisessa. Ajatuksena on, että kun nyt koodataan ja tallennetaan esimerkiksi papyruskääröjen tekstejä, jotka ovat tuhansia vuosia vanhoja, tallennetun aineiston tulisi muotonsa puolesta olla sellaista, että se olisi käyttökelpoista tuhansia vuosia eteenkin päin. On varmaa, että aineiston tallennusmuotoa joudutaan tulevaisuudessa muuttamaan. Oleellisinta on, että muunnokset pystytään tekemään tietokoneiden avulla automaattisesti.

TEI-suositus (Guidelines for Text Encoding for Interchange) on laaja, se on yli 1400 sivua. TEI on silti nopeasti vakiinnuttanut asemansa ja levinnyt varsinkin suurimpien yliopistojen tekstiarkistojen käyttöön.