5.9 HTML ja World Wide Web

WWW-dokumentit koodataan HTML-merkinnöillä (HTML, HyperText Markup Language). HTML-koodaus on määritelty SGML-standardin mukaisella tavalla, joten HTML on yksinkertainen SGML:n sovellus. Ensimmäisen HTML:n määrityksen kirjoitti Tim Berners-Lee CERNissä ollessaan. Nykyisin määritystyötä tehdään MIT:ssa toimivan WWW-konsortion (W3C) puitteissa, johon kuuluvat mm. IBM, Microsoft, Netscape Communications Corporation, Novell, Spyglass ja SoftQuad. Berners-Lee toimii W3C:n johtajana.

Alkuperäinen HTML osoittautui hyvin nopeasti liian suppeaksi käytännön tarpeisiin ja siihen alettiin tehdä lisätoimintoja. Näin syntyi lyhyessä ajassa kirjava joukko erilaisia HTML:n murteita ja laajennuksia. Seuraava yhtenäinen ja kohtalaisen pitkään käytössä pysynyt versio oli HTML 2.0, joka on julkaistu IETF:n dokumenttina RFC 1866. Alkuperäiseen määritykseen verrattuna versio 2.0 toi lisäpiirteinä käyttöön lomakkeet ja niiden käsittelyssä tarvittavat kuvakkeet (painonapit ja alasvetovalikot).

Seuraavaksi syntyivät HTML+ ja sen laajennuksena HTML 3.0, jotka sisälsivät suunnilleen kaiken, mitä hyperteksteissä ajateltiin tarvittavan. Käytettävissä olivat taulukot ja monia muita piirteitä mutta kaikkien niiden lisäksi merkintätavat matemaattisia lausekkeita varten. Osa näistä lisäyksistä osoittautui sellaisiksi, että tarkkaa määrittelyä ei pystytty tekemään, tai sitten selainten tekeminen kävi liian vaikeaksi. Kumpikaan mainituista HTML:n versioista ei koskaan tullut varsinaiseen käyttöön.

Määrittelytyötä jatkettiin ja samalla pyrittiin systemaattisempaan ja realistisempaan lopputulokseen. Työn tuloksena syntyi HTML 3.2, josta tuli W3C:n virallinen suositus. Se heijasti vuoden 1996 käsityksiä WWW:n palvelujen hyödyntämisessä tarpeellisista piirteistä. Määrittely on päivätty 11.1.1997 ja laajassa käytössä olevat selaimet tukevat riittävän hyvin siinä olevia piirteitä.

HTML:n kehitys ei suinkaan ole pysähtynyt, ei edes hidastunut. Merkintäkielen uusin versio, HTML 4.0 on määritelty 24.4.1998 päivätyssä, W3C:n hyväksymässä suosituksessa. Se on siis tätä kirjoitettaessa virallinen HTML:n versio ja W3C suosittelee HTML 3.2:n käytöstä luopumista. HTML 4.0 on dokumenttina varsin laaja, valmiiksi muotoiltu Postscript-versio käsittää 367 sivua.

Vajaa kuukausi HTML 4.0:n hyväksymisen jälkeen W3C järjesti työseminaarin (4.–5.5.1998), jossa keskusteltiin HTML:n tulevaisuudesta. Seminaarissa todettiin, että HTML:n enempi laajentaminen on vaikeaa eikä HTML 4.0 ole myöskään muunnettavissa XML:ksi (XML on laajennettava merkintäkieli, siitä tarkemmin hiukan myöhemmin). Sen vuoksi työ seuraavan HTML-version suunnittelemiseksi on aloitettava tavallaan alusta ja käytettävä XML:n mukaista merkintäkieltä. On siten mahdollista, että HTML 4.0 on viimeinen HTML:n versio ja tuleva WWW-dokumenttien merkintäkieli on jotain XML-johdannaista. Riippumatta siitä, miten standardointityö etenee, HTML-merkatut dokumentit tulevat olemaan useita vuosia käytössä.

Kirjastoalan ihmisten mutta miksei myös kotisivuja harrastuksekseen tekevien verkonkäyttäjien on tärkeää ymmärtää, että HTML on todellakin SGML-sovellus. Vaikka WWW-dokumentteihin voi vielä nykyisellään kirjoittaa lähes mitä tahansa SGML:ää muistuttavia merkintöjä ilman, että selaimet niistä häiriintyvät, tilanne voi muuttua. On hyvin mahdollista, että tietoturva-, arkistointi- tai muista syistä WWW:n selaimet ja muut ohjelmat alkavat edellyttää, että WWW:n dokumentit ovat tarkasti jonkin “virallisesti” hyväksytyn ja julkisesti saatavissa olevan DTD:n mukaisia. Silloin WWW-dokumenttien alussa on välttämättä oltava merkintä tyyppimäärityksestä ja dokumenttien rakenteen on oltava jotain seuraavan kaltaista:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0//EN">
<HTML>
<HEAD>
<TITLE>A study of population dynamics</TITLE>
... other head elements   
</HEAD>   
<BODY>     ... document body   
</BODY>   
</HTML>

Lisäksi kunkin dokumentin tulee todella olla sen alkutiedoissa mainitun DTD:n mukainen. Määritys on täysin formaali ja sen noudattaminen on ohjelmallisesti tarkistettavissa. WWW:stä löytyy julkisia validointipalveluja. Janne Himangan toteuttama versio on osoitteessa http://oyt.oulu.fi/validointi.html.

Kuten edellä esitetystä on helposti pääteltävissä, kehitys etenee henkeä ahdistavalla nopeudella. WWW:stä ja HTML:stä kirjoittaminen onkin hyvin ongelmallista siksi, että esitellyt asiat, viittaukset verkossa oleviin dokumentteihin ja arvelut tulevasta kehityksen suunnasta vanhenevat jo sinä aikana, kun kirjoitusta ladotaan ja painetaan. Tämä on kuitenkin myös standardien kehittäjien ongelma. Mikä tahansa huolella tehty standardi vanhenee käsiin ennen kuin se on saatu kunnolla edes julkaistavaan kuntoon.

Kaiken tämän ja monien muiden syiden takia HTML:n jatkokehityksessä ollaan siis päätymässä sellaiseen standardointiratkaisuun, joka tekee mahdolliseksi merkintäkielen laajentamisen ilman, että tyyppimääritystä tarvitsee muuttaa. Tästä päästään luvun viimeiseen aiheeseen, joka on XML.