5.4 SGML-esittely

SGML-esittelyn tärkeimpänä tarkoituksena on määritellä käytettävä merkkivalikoima (Euroopassa tavallisimmin ISO Latin 1, eli ISO 8859-1) ja koodauksessa käytettävät tärkeimmät erikoismerkit. SGML-koodaus perustuu erityisten merkintäkoodien (tagien) eli erottimien käyttöön. Jokaisen tekstielementin alussa on alkuerotin, lopussa on mahdollisesti loppuerotin. Esimerkiksi henkilön nimi voidaan dokumentissa ilmaista muodossa:

<name>Ville Virtanen</name>

Alkuerotin on <name> ja loppuerotin </name>. Kulmasulut ja kauttaviiva ovat tässä tapauksessa tärkeimmät koodauksessa käytettävät erikoismerkit. Ne ovat niin tässä kuin useimmissa muissakin dokumenteissa samat kuin varsinaisessa standardissa. Niitä ei ole kuitenkaan pakko käyttää. Jos on erityisiä syitä, nekin merkit voidaan vaihtaa joiksikin muiksi. Uudet koodauksessa käytettävät erikoismerkit esiteltäisiin SGML-esittelyssä.

Esittelyssä hoidetaan myös eri tietokoneiden käyttämien erilaisten merkistöjen eroista aiheutuvat ongelmat. Tietokoneet eivät käsittele näkyviä merkkejä (esim. kirjainmerkki ‘A’) vaan merkkejä vastaavia numeroarvoja. Kirjainmerkkiä ‘A’ vastaava numeroarvo ASCII-koodissa on 65, IBM:n tietokoneiden käyttämässä EBCDIC-koodissa 193 (kumpikin luku on ilmaistu 10-järjestelmässä). Numeroarvojen ohella merkistöt poikkeavat toisistaan myös merkkivalikoimien osalta. Esimerkiksi ASCII-merkit on alunperin suunniteltu pelkästään englannin kielen tarpeisiin. Siitä puuttuvat kokonaan mm. skandinaaviset kirjaimet. ISO Latin 1 ne sen sijaan sisältää.