next up previous contents
Seuraava: 6.1 Pari sanaa tekstinkäsittelystä Ylempi: Hajautettu dokumenttien hallinta: Johdatus Edellinen: 5.5 Z39.50:n jatkokehitys

6 SGML ja rakenteiset dokumentit

Dokumenttien pitkäaikaisessa hyväksikäytössä on välttämätöntä varautua sekä tietovälineiden että tietokoneohjelmien jatkuviin muutoksiin. Aineisto on aika"-ajoin kopioitava uudempaa teknologiaa edustaville tietovälineille ja tämän lisäksi aina tarpeen tullen muunnettava kokonaan toisenlaiseen tallennusmuotoon. Mitä nopeammin teknologia kehittyy, sitä lyhytikäisempiä ovat tietovälineet ja osittain myös tallennusmuodot. Papyruskääröt ja savitaulut ovat säilyttäneet niihin ``tallennetun'' informaation käyttökelpoisessa muodossa vuosituhansia. On mahdollista, että tietotekniikka ei koskaan tule kehittämään tietovälinettä, joka olisi yhtä pitkäikäinen.

Tietojenkäsittelyssä käytettävien laitteiden osalta ongelman luonteesta saa hyvän mielikuvan, kun palauttaa mieliin mitä kaikkea tähän mennessä on jo ehtinyt tapahtua. Ensimmäiset tietovälineet olivat reikänauha (eri leveyksiä) ja reikäkortti (eri kokoja). Niiden käsittelyyn sopivia laitteita ei ole ollut käytössä enää pitkiin aikoihin. Seuraavaksi tulivat avokeloilla olevat magneettinauhat (useita eri tiheyksiä ja nauhaformaatteja). Niiden viimeinen sukupolvi on parhaillaan poistumassa käytöstä. Muutaman vuoden kuluttua ei enää mistään löydy magneettinauhoja lukevia laitteita. Nauhakaseteista on käytössä useita keskenään yhteensopimattomia malleja (ainakin TK, DLT, DAT, QIC ja Exabyte). Niistä TK ja 4 mm:n DAT-nauha poistunevat ensimmäisenä käytöstä. Myös vanhemmat tietolevyt ovat jo poistuneet käytöstä (floppy disk, kaksi eri kokoa).

Tietovälineiden vanheneminen on täysin väistämätön ongelma -- se on osa teknologian vääjäämätöntä jatkuvaa kehityskulkua. Ongelma on kuitenkin käsitteellisessä mielessä helposti ymmärrettävissä ja käytännössä kohtuullisella työllä hallittavissa. Tallennusmuotoja koskeva ongelma on sen sijaan hyvin erilainen luonteeltaan ja paljon vaikeammin lähestyttävissä. Ei ole mitenkään itsestään selvää, mihin seikkoihin pitäisi ensisijaisesti kiinnittää huomiota pitkäaikaisen käytettävyyden turvaamiseksi.

Ongelmaa on lähestytty kahdesta, lähes vastakkaisesta suunnasta. (1) Dokumentit tallennetaan niin, että ne säilyttävät mahdollisimman tarkasti paperidokumenttien ulkoasun. Taulukkojen, lomakkeiden ja kuvien osalta tämä lähestymistapa on helposti perusteltavissa. (2) Toinen lähestymistapa kiinnittää huomionsa dokumentin rakenteeseen ja sisältöön. Dokumentti tallennetaan niin, että sen yleinen rakenne ja eri rakenneosat pystytään tunnistamaan ja erottamaan. Raakateksti tallennetaan kummassakin ratkaisussa mahdollisuuksien mukaan sellaisenaan.

Dokumenttien ulkoasun kuvaamisessa voidaan käyttää ISO:n ODA-standardia (ISO 8613)[*]. ODA:n avulla voidaan kuvata tekstilohkojen ja kuvien sijainti paperilla, taulukkojen sijainti ja ulkoasu, jopa teksteissä käytetyt kirjasinlajikkeet. Standardia on sovellettu organisaatioiden välisessä määrämuotoisten dokumenttien käsittelyssä ja siirrossa. Lähestymistapa ei kuitenkaan ole riittävän monipuolinen dokumenttien pitkäaikaisen hyväksikäytön kannalta. Parempi ratkaisu on löydettävissä dokumenttien rakenteen kuvaamisesta.

Rakenteen kuvaamista varten on kehitetty ISO:n SGML-standardi (ISO 8879)[*]. Standardi on varsin laaja ja käsitteellisesti hiukan vaikeasti ymmärrettävissä. SGML on tavallaan metatason standardi. Se ei ole sellaisenaan vielä mikään merkintäkieli -- nimestään huolimatta. SGML on yleistetty merkintäkieli, se on pikemminkin yleinen kielioppi, jonka avulla voidaan määritellä hyvinkin erilaisia merkintäkieliä. WWW:n dokumenttien koodaamisessa käytetty HTML on yksi SGML-pohjaisista merkintäkielistä. Yritän jäljempänä selventää tätä asetelmaa.



 
next up previous contents
Seuraava: 6.1 Pari sanaa tekstinkäsittelystä Ylempi: Hajautettu dokumenttien hallinta: Johdatus Edellinen: 5.5 Z39.50:n jatkokehitys
Timo Kuronen