sivut.web

ohjeita web-sivuston tekijälle

HTML: Kielen merkkaaminen

Lyhyesti: Merkkaamalla tekstin kielen helpotat sen ymmärtämistä.

Vaikka web-sivu on yleensä kirjoitettu vain yhdellä kielellä, monella web-sivulla käytetään useampaa kuin yhtä kieltä. Peruskielelestä poikkeavia voivat olla esimerkiksi lainaukset, henkilöiden nimet ja vieraskieliset paikkakunnat.

World Wide Web Consortiumin mukaan kielimerkkausta tulisi käyttää seuraavista syistä:

Vinkki: Käytä yhdellä sivulla aina vain yhtä peruskieltä. Tee eri kielivaihtoehdoista eri dokumentteja.

HTML-kielen lang-määrite

HTML-kielen lang-määrite määrittää elementin sisältämän tekstin kielen. Lang-määritettä voidaan käyttää kaikissa elementeissä paitsi elementeissä apple, base, basefont, br, frame, frameset, iframe, param ja script.

Koko dokumentin peruskieli merkataan html-elementtiin:

<html lang="fi">

Dokumentin peruskielestä poikkeavia kohtia voidaan merkata esimerkiksi div- ja span-elementeillä, jotka on tarkoitettu dokumentin ryhmittelemiseen.

<p>Ranskan kansallislaulu on <span lang="fr">La Marseillaise</span> eli kotoisammin marseljeesi.</p>

Kielien koodit

Lang-määritteen arvo määrittelee luonnollisen kielen, jota puhutaan, kirjoitetaan tai muuten käytetään ihmisten välisessä viestinnässä. Tietokonekielille ei ole kielikoodeja. Kielikoodi koostuu kaksimerkkisestä kielikoodista ja mahdollisesta maa-alakoodista. Esimerkiksi kielikoodi fi tarkoittaa suomen kieltä, en-US amerikanenglantia. Lista käytetyistä kielikoodeista löytyy ISO 639-standardissa. Alakoodit ymmärretään maakoodeiksi kuten ISO 3166-standardissa on määritelty. Kielien sarjassa on myös muutamia kuriositeetteja, esimerkiksi Klingonin kieli merkataan koodilla x-klingon, jossa x tarkoittaa kokeellista (experimental) kieltä.

F
Muutamia kielikoodeja (ISO 639 + ISO 3166)
Kieli Koodi
suomifi
ruotsi sv
suomenruotsi sv-FI
englanti en
brittienglanti en-GB
amerikanenglanti en-US
ranska fr
belgianranska fr-BE
quebecinranska fr-CA

Linkkien kielen merkkaaminen

Linkit muodostavat kokonaan oman lukunsa kielen merkkaamisessa luonteensa takia. Linkkielementti voi sisältää viittauksen kolmeen eri tekstiin, jotka voivat jokainen olla eri kielellä:

A-elementin lang-määritteellä määritellään elementin sisään jäävän tekstisisällön kieli, aivan kuten muissakin elementeissä. Tämän lisäksi myös linkin kohteen kieli voidaan ilmaista hreflang-määritteellä. Vieraskieliseen dokumenttiin voidaan viitata esimerkiksi seuraavasti:

<a href="http://www.w3.org/" lang="en" hreflang="en" title="World Wide Web Consortium">W3C</a>

Lainausmerkit

Maailmalla on käytössä monia erilaisia lainausmerkkejä. Tässä niistä yleisimpiä:

Lainausmerkit tulevat kyseeseen lähinnä q-elementtiä käytettäessä. Kaikki lainaukset kannattaa merkata nimenomaan q-elementillä, ei pelkästään lainausmerkkejä käyttäen. Tämä sääntö pätee varsinkin, jos sivu on tarkoitettu useille eri kielille. Tietämällä käytetyn kielen, selain osaa automaattisesti valita sopivimmat lainausmerkit lainauksen ympärille.

Ohjelmien avustus

Hakukoneet, puhesyntetisaattorit, oikolukijat ja kieliopin tarkistimet ovat ohjelmia, jotka ovat sidoksissa erilaisten kielten kanssa. Näiden ohjelmien toimintaa helpottaa suuresti, mikäli dokumentissa on merkattu sen kieli. Monet näistä ohjelmista yrittävät arvata käytetyn kielen käyttämällä erilaisia kieltentunnistusalgoritmeja. On kuitenkin sivuston rakentajan kannalta edullista, että esimerkiksi hakukoneen ei tarvitse arvata dokumentin kieltä, vaan esimerkiksi suomenkielinen sivu löytyy automaattisesti suomenkielisten sivujen joukosta.

Tyylikästä vieraskielisyyttä

On hyvä korostaa vieraskielistä tekstiä jollain tavalla. Useimmiten käytetty tekniikka on tekstin kursivoiminen.

Seuraava CSS-koodin pätkä kursivoi suomenkielisellä sivulla kaikki elementit, joiden lang-määrite on asetettu.

*[lang] {
	font-style:	oblique;
}

*[lang="fi"] {
	font-style:	normal;
}

Kaikki elementit, joiden lang-määrite on "fi", pysyvät kursivoimattomina. "fi"-arvolla asetetun lang-määritteen määritteleminen kursivoimattomaksi on tärkeää jos on tarpeen tuottaa sekakieltä, jossa dokumentin peruskieli ja vieras kieli vuorottelevat, esimerkiksi: approbatur, improbatur ja laudatur ovat latinaa.

XHTML-kielen xml:lang-määrite

XHTML-kielessä tulee käyttää XML-kielen mukaista xml:lang-määritettä. Xml:lang-määritettä kannattaa käyttää yhdessä lang-määritteen kanssa. Jos lang- ja xml:lang-määritteillä on eri arvot, missä ei luonnollisesti ole kovinkaan paljon järkeä, kieli luetaan xml:lang-määritteestä.

Lue lisää:
HTML 4.01 Specification: Language information and text direction
Dan's Web Tips: Languages

Tämä sivu on luotu 26.5.2004 ja päivitetty 27.5.2004.


Käyttäjien kommentit

28.10.2004 15:40
Jaakko Kärkölä <jaakko.karkola@ippnet.fi>

Haluaisin tietää lisää tageja, että voisin tehdä paremmat kotisivut!

Lisää oma kommentti


Juha-Pekka Järvenpää
jp@sivut.org
http://www.jarvenpaa.net/