| Hajautettu dokumenttien hallinta: Johdatus tekstin ja dokumenttien käsittelyyn tietoverkoissa | ||
|---|---|---|
| Edellinen | Luku 6 Nimeäminen ja paikantaminen | Seuraava |
Viitattaessa Internetin sisältämiin dokumentteihin[1]käytetään enimmäkseen mekanismia nimeltä URL (Uniform Resource Locator, “yhtenäinen resurssipaikannin”). URL:n muoto on määritelty Internet-standardissa RFC 1738 vuodelta 1994. Kun URL on tiedossa, dokumentti voidaan periaatteessa noutaa käyttöön mistä päin maailmaa hyvänsä. Viittausmekanismina URL on kuitenkin puutteellinen, sillä se ilmaisee tarkasti dokumentin sijainnin — pienikin muutos dokumentin sijainnissa tekee URL:n käyttökelvottomaksi. Tällaiset pienet muutokset ovat kuitenkin väistämättömiä: tietokantojen kasvaessa kokoelmia on organisoitava eri tavalla, organisaatiomuutosten seurauksena tietokoneiden nimet muuttuvat jne. Tilanne on verrattavissa siihen, että tieteellisten artikkelien lopussa viitattaisiin teosten signumeihin (paikkanumeroihin) tietyn kirjaston hyllyillä.
URL:n puutteet viittausmekanismina on tiedostettu jo pitkään, ja IETF:n (Internet Engineering Task Force) työryhmät ovat tehneet ehdotuksia yleisemmän ja pysyvämmän viittausmekanismin luomiseksi. Erityistä huomiota on kiinnitetty sijainnista riippumattoman nimeämiskäytännön luomiseen. Siitä käytetään nimitystä URN, Uniform Resource Name. Yksinkertaistaen URN:ää voi verrata ISBN-numeroihin. Tietoverkon resurssin URN pysyy samana vaikka sen URL muuttuisi.
IETF julkisti elokuussa 1998 dokumentin RFC 2396, Uniform Resource Identifiers (URI): Generic Syntax. Se korvaa yllä mainitun RFC 1738:n. Yhtenäinen resurssitunniste URI voi tarkoittaa joko URL:ää tai URN:ää — tai molempia. Yhtenäisen syntaksin määrittelyllä luodaan pysyvä rakenteellinen ratkaisu tietoverkon resurssien paikantamista (URL) ja nimeämistä (URN) koskeviin ongelmiin. URL:n osalta uusi määrittely ei tuo suuria muutoksia entiseen käytäntöön. URN:n osalta kyseessä on todellakin vasta yhtenäisen syntaksin määrittely. Laajamittainen URN:ien käyttöönotto on vaikea ja paljon aikaa vaativa tehtävä.
Täsmennetty URL:n määrittely pitää entiseen tapaan sisällään yhteyskäytäntösidonnaiset osoitteet, kuten esimerkiksi:
jossa yhteyskäytäntönä on WWW:n käyttämä http. Resurssin paikantamisen ei kuitenkaan tarvitse rajoittua yhteyskäytäntösidonnaisiin mekanismeihin. Paikantaminen voi perustua myös yhdyskäytäviin, proxeihin, välivarastoihin (cache), nimipalveluun tai muuhun vastaavaan palveluun.
URN:n toimintaperiaate on määritelty yksityiskohtaisemmin IETF:n dokumentissa RFC 2141 URN Syntax vuodelta 1997. URN:n toimintaperiaate on lyhyesti seuraava. Kun asiakasohjelma (esimerkiksi WWW-selain) saa käsiinsä URN:n, se kysyy ensin jostain lähellään olevasta palvelimesta (esim. nimipalvelimesta, jollainen on aina saatavilla), mistä se voisi löytää resoluutiopalvelimen tämäntyyppiselle URN:lle. Saatuaan vastauksen asiakasohjelma ottaa yhteyttä sopivaan resoluutiopalvelimeen, joka ottaa URN:n ja palauttaa joko URL:n tai itse dokumentin.
URN:ssä on kaksi osaa: nimityyppi ja tyyppikohtainen tarkennin. URN:llä voi ilmaista myös olemassaolevia nimiavaruuksia, kunhan resoluutiopalvelu on olemassa. Esimerkiksi Tähtitieteellinen Yhdistys URSAn Tähdet 1997 -teoksen elektroninen versio voisi löytyä seuraavalla URN:lla: urn:isbn:951-9269-82-7.
Verrattuna URL:n käyttöön tässä on siis kaksi uutta vaihetta. Ne yhdessä takaavat URN:lle pitkän elinkaaren. Ensinnäkin dokumentin sijainti voi muuttua kuinka usein hyvänsä, kunhan resoluutiopalvelin pysyy ajan tasalla. Toiseksi, vaikka resoluutiopalvelin poistuisi käytöstä, tämä mekanismi sallii myös muiden resoluutiopalvelinten käytön. Jos resoluutiopalvelinten löytämiseen käytetään nimenomaan Internetin nimipalvelua (DNS, Domain Name Service), on kyseessä ns. NAPTR URN -protokolla. Se on ensimmäinen URN-toteutus, josta on jo olemassa prototyyppejä.
URN:ien laajamittainen käyttöönotto on raskas prosessi. Se vaatii resoluutiopalvelinten perustamisen sekä muutoksia asiakasohjelmiin ja nimipalveluun. Etenkin nimipalvelun muuttaminen on työlästä, koska se on erittäin kriittinen osa Internetin protokollaperhettä, eikä siinä voida sallia toimintahäiriöitä. Tästä syystä URN:t ovat edelleenkin prototyyppiasteella, vaikka niitä on kehitelty jo vuosia. URN-työryhmät haluavat tehdä huolellista jälkeä. Tällä hetkellä esimerkiksi URN -työryhmän postituslistalla käydään keskustelua siitä, pitäisikö URN:ssä käyttää ISO-10646 -merkistöä, jotta URN:t voisivat sisältää vaikkapa kiinalaisia kirjoitusmerkkejä.
URL:ien vanheneminen on akuutti ja laajamittainen ongelma. On vaikea käyttää URL-viittauksia esimerkiksi tieteellisissä artikkeleissa, väitöskirjoissa ja opinnäytteissä, koska URL:t voivat olla vanhentuneita kun kirjoitus tulee painosta.
| [1] | Tämän osuuden on alunperin kirjoittanut Janne Himanka Oulun yliopiston Informaatiotutkimuksen laitoksesta. |