Iso 15924

Iso 15924

ISO 15924

Unicode
Jeux de caractères
Équivalences normalisées
  • NFC (précomposée)
  • NFD (décomposée)
  • NFKC (compatibilité)
  • NFKD (compatibilité)
Propriétés et algorithmes
Codage
Autres transformations
Applications d'échanges de données

La norme ISO 15924 liste des « Codes pour la représentation des noms d’écritures ». Le Consortium Unicode gère le bureau de l’autorité d’enregistrement et de maintenance de la norme pour le compte de l’ISO qui définit et approuve la norme. Toutefois, la norme ISO 15924 ne fait pas partie de la norme Unicode (qui utilise des écritures unifiées portant uniquement sur les distinctions de caractères abstraits).

Sommaire

Désignation et organisation des systèmes d’écritures selon ISO 15924

La norme définit pour chaque système d’écriture :

  • un nom descriptif en anglais ;
  • un nom descriptif en français ;
  • un codet alphabétique (normatif) à quatre lettres, par exemple :
    Arab : arabe ;
    Cyrl : cyrillique ;
    Egyp : hiéroglyphes égyptiens ;
    Latn : latin ;
    Laoo : laotien ;
    Yiii : yi ;
  • un codet numérique (normatif) entre 000 et 999 ; et enfin
  • une date de référence permettant de suivre les évolutions (et corrections éventuelles) de chaque système d’écriture dans la norme elle-même.

Pour une liste complète (et à jour) des codes et noms définis, on se reportera simplement au site Internet indiqué en fin d’article.

Nomenclature et classification numérique

Les codets numériques sont groupés en séries d’une centaine en fonction de la typologie et la proximité relative des systèmes d’écritures (voir des exemples ci-dessous).

Les codets et noms sont définis pour prendre également en compte les besoins bibliographiques concernant des textes et documents entiers, et ne sont pas réservés aux seuls caractères isolés. Aussi, des styles différents d’écritures utilisant le même alphabet abstrait disposent de codets spécifiques, classés avec des codets proches de la même série, si possible consécutifs. Pour cela, les codets numériques ne sont pas alloués simplement par incrément de 1 (il y a des « trous » dans la numérotation).

Les séries suivantes sont utilisées actuellement :

  • 000 à 099 : écritures hiéroglyphiques (égyptiens ou maya) et cunéiformes (dont l’ougaritique) ;
  • 100 à 199 : écritures alphabétiques de droite à gauche (dont les alphabets phénicien, tifinaghs, abjads sémitiques, mongol, n’ko et vieux hongrois) ;
  • 200 à 299 : écritures alphabétiques de gauche à droite (dont les alphabets européens dérivés du grec ancien, le bobomofo et l’alphabet hangûl, ou les alphabets littéraires inventés) ;
  • 300 à 399 : écritures alphasyllabiques (dont les nombreux abugidas brahmiques du sud et du sud-est de l’Asie) ;
  • 400 à 499 : écritures syllabiques (dont les syllabaires linéaire A ou B, chypriote, hiragana ou katakana, éthiopien, autochtones canadiens, cherokee, etc.) ;
  • 500 à 599 : écritures idéographiques ou symboliques (dont l’écriture Braille) ;
  • 600 à 699 : écritures non déchiffrées (de classification encore inconnue, telles l’indus et le rongorongo) ;
  • 700 à 799 ou 800 à 899 : séries pas encore utilisées ;
  • 900 à 999 : codets à usage privé, alias (aucun actuellement), codets spéciaux.

Composition et attribution des codets alphabétiques

Les codets alphabétiques à quatre lettres utilisent l’alphabet latin basique à 26 lettres. La casse de ces codets n’est pas significative, mais la casse recommandée utilise une lettre majuscule suivie de trois lettres minuscules. Ces codets alphabétiques sont inspirés des noms des écritures pour des raisons mnémoniques. Toutefois, les variantes de styles d’une même écriture ne diffèrent, autant que possible, que par leur quatrième lettre. Ces variantes sont reconnaissables aussi par leurs codets numériques proches dans la même série. Par exemple :

  • Latn = 215 = (fr) « latin » = (en)Latin” ;
  • Latf = 216 = (fr) « latin (variante brisée) » = (en) “Latin (Fraktur variant)” ;
  • Latg = 217 = (fr) « latin (variante gaélique) » = (en) “Latin (Gaelic variant)”.

Ou encore :

Et aussi :

  • Hani = 500 = (fr) « idéogrammes han » = (en)Han (Hanzi, Kanji, Hanja)” ;
  • Hans = 501 = (fr) « idéogrammes han (variante simplifiée) » = (en) “Han (Simplified variant)” ;
  • Hant = 502 = (fr) « idéogrammes han (variante traditionnelle) » = (en) “Han (Traditional variant)”.

Cependant, deux codets alphabétiques commençant par les mêmes trois premières lettres ne désignent pas forcément deux variantes d’un même système d’écriture (ce qui peut se voir éventuellement grace à la classification numérique dans des séries distinctes) :

  • Hani = 500 = (fr) « idéogrammes han » = (en)Han (Hanzi, Kanji, Hanja)” ;
  • Hano = 371 = (fr) « hanounóo » = (en)Hanunoo (Hanunóo)”.

Codets spéciaux

Si les écritures normalisées ne suffisent pas, il existe 50 codets utilisables au gré des utilisateurs (les noms utilisés ne sont pas normatifs et sont modifiables) :

  • Qaaa = 900 = (fr) « réservé à l’usage privé (début) » = (en) “Reserved for private use (start)” ;
  • Qaab = 901 = (fr) « réservé à l’usage privé (2e) » = (en) “Reserved for private use (2nd)” ;
  • ...
  • Qaaz = 925 = (fr) « réservé à l’usage privé (26e) » = (en) “Reserved for private use (26th)”.
  • Qaba = 926 = (fr) « réservé à l’usage privé (27e) » = (en) “Reserved for private use (27th)” ;
  • ...
  • Qabx = 949 = (fr) « réservé à l’usage privé (fin) » = (en) “Reserved for private use (end)”.

Il existe des codets spéciaux destinés aux cas des langues non écrites (par exemple à l’usage de classification de photographies et d’enregistrements vidéo ou audiophoniques dans les collections des médiathèques et musées), ou bien quand une écriture ne peut pas être déterminée de façon fiable car multiple (dans des familles distinctes et pour lequel l’ensemble n’a pas de code prédéfini plus précis), ou bien encore quand l’écriture n’a pas été spécifiée mais pourrait éventuellement être indiquée de façon plus précise avec un autre code :

  • Zxxx = 997 = (fr) « codet pour les langues non écrites » = (en) “Code for unwritten languages” ;
  • Zyyy = 998 = (fr) « codet pour écriture indéterminée » = (en) “Code for undetermined script” ;
  • Zzzz = 999 = (fr) « codet pour écriture non codée » = (en) “Code for uncoded script”.

Historique

Cette liste de codets et de noms d’écritures a été créée et est maintenue par Michael Everson, également membre du Comité technique d’Unicode (UTC). Le texte de la norme ISO 15924 a été approuvée pour la première fois le 9 janvier 2004, qui a fixé les principes généraux pour la définition des codets.

La première liste de codets, très complète alors, a été publiée le 1er mai 2004 en ligne sur le site Internet du Consortium Unicode. Elle comprenait, entre autres, toutes les écritures utilisées ou définies alors dans la norme Unicode 4.0 et la norme ISO/CEI 10646. Un nombre important de corrections ont suivi dans les semaines suivantes, et la liste a été finalisée le 29 mai 2004.

Depuis lors, quelques nouvelles écritures ont été régulièrement ajoutées pour les besoins d’écritures en cours de normalisation dans ISO/CEI 19646 et Unicode, ou pour des usages bibliographiques, ainsi que pour des écritures non encore normalisées qui doivent encore faire l’objet d’études.

Relations avec d’autres normes et recommandations

Relation avec les codets de langues de la norme ISO 639

De plus les codets alphabétiques ISO 15924 d’écritures commencent, autant que possible, par les mêmes lettres que les codets à trois lettres de langues selon ISO 639-2 ou son extension ISO 639-3 (qui couvre une liste étendue de langues), quand les noms de l’écriture et de la langue sont homonymes. Par exemple :

  • nom de langue = (en) « Latin » = (fr) « latin » ; codet alphabétique de langue ISO 639-2 = lat ;
  • nom d’écriture = (en) « Latin » = (fr) « latin » ; homonymes, donc : codet alphabétique d’écriture ISO 15924 = Latn.

La future norme ISO 639-6 en préparation, et qui devrait étendre à quatre lettres les codets de langues (afin de recenser un plus grand nombre de variantes de langues) reprend ce principe, et utilise si possible les mêmes codets déjà retenus dans ISO 15924 pour les écritures homonymes de langues, afin de préserver la compatibilité avec l'actuelle norme RFC 4646 bis (BCP 47) :

  • nom d’écriture = (en) « Latin » = (fr) « latin ». : codet alphabétique d’écriture ISO 15924 = Latn.
  • nom de langue = (en) « Latin » = (fr) « latin » ; homonymes, donc : codet alphabétique de langue ISO/CD 639-6 = latn.

Désignation des locales selon RFC 4646, avec ISO 639 et ISO 3166

En pratique, les codets alphabétiques sont préférables dans les applications internationalisées qui doivent localiser des données. Ce sont ces codets alphabétiques qui seront utilisés dans les codes de locales, conjointement avec les codets alphabétiques de langues de la norme ISO 639 et les codets alphabétiques ou numériques de pays et régions de la norme ISO 3166.

Les locales sont désignées dans les applications conformément à la RFC 4646 pour prendre en compte aussi les codets d’écriture ISO 15924, en plus des codets de langues ISO 639 et codets de pays et régions ISO 3166.

Différences des noms avec ceux de la norme ISO/CEI 10646

Il n’y a pas de bijection exacte entre les noms anglais et français d’écritures définis dans ISO 15924 et les désignations en anglais et français utilisées dans les noms normatifs de caractères et de blocs de caractères alloués dans les normes ISO/CEI 10646 (et donc aussi Unicode).

Toutefois, les futurs blocs de caractères et caractères normalisés dans ISO/CEI 10646 (et donc aussi Unicode) seront nommés, si possible, conformément à ISO 15924.

Différences des codets alphabétiques avec ceux de la norme Unicode

De même, il n’y a pas de bijection exacte entre les codets alphabétiques d’écritures normalisés dans ISO 15924 et les codes d’écritures utilisés dans les tables de propriétés des caractères Unicode. En effet, la norme ISO 15924 contient des éléments supplémentaires apportant des distinctions à usage bibliographique, entre des écritures qui ont été unifiées dans les normes ISO et Unicode de codage de caractères. La norme ISO 15924 contient des codets et noms distinctifs pour les écritures qui ont été ainsi unifiées en une seule dans Unicode (qui les traite comme des variantes typographiques sans différence de codage au niveau des caractères et de leurs propriétés normatives ou informatives).

D’autre part, la norme ISO 15924 ayant été créée après la norme Unicode, le format des codets alphabétiques ISO 15924 peut différer des codes normatifs utilisés dans les tables de propriétés Unicode (qui peuvent être plus longs et contenir des tirets bas).

À titre informatif uniquement, la norme ISO 15924 définit un alias (ou « synonyme de valeur de propriété ») pour les écritures normalisées, afin de connaître la correspondance avec les propriétés de caractères définies dans la norme Unicode, quand une telle différence existe. Depuis que la norme ISO 15924 a été publiée, le Consortium Unicode s’est engagé à ne plus définir de nouveaux codes différents de ceux définis dans ISO 15924, et utilise donc, chaque fois que possible, les codets alphabétiques de la norme ISO 15924. C'est pourquoi tous les synonymes de propriétés Unicode ne sont pas mentionnés dans les tables ISO 15924 (on trouvera les codes utilisés dans les fichiers de propriétés de la norme Unicode elle-même, et Unicode a ajouté des synonymes de valeurs de propriétés de caractères, ce qui permet désormais d’utiliser uniquement les codets ISO 15924 dans les applications conformes à Unicode).

Voir aussi

Liens internes

Liens externes

  • Portail de l’informatique Portail de l’informatique
  • Portail de l’écriture Portail de l’écriture
Ce document provient de « ISO 15924 ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Iso 15924 de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать реферат

Regardez d'autres dictionnaires:

  • ISO 15924 — ISO 15924, Codes for the representation of names of scripts, defines two sets of codes for a number of writing systems (scripts). Each script is given both a four letter code and a numeric one.[1] Script is defined as set of graphic characters… …   Wikipedia

  • ISO 15924 — ISO 15924, Коды для обозначения названий письменностей, определяет два набора кодов для ряда письменностей. Каждой письменности присваивается два кода числовой и содержащий четыре буквы. Письменностью считается «набор графических символов,… …   Википедия

  • ISO 15924 — ist ein von der Internationalen Organisation für Normung herausgegebener Standard, der Abkürzungen für Schriftsysteme bezeichnet. Jedes Schriftsystem hat sowohl eine vier Zeichen umfassende Abkürzung wie auch einen Zifferncode. Diese Abkürzungen… …   Deutsch Wikipedia

  • ISO 15924 — La norme ISO 15924 liste des « Codes pour la représentation des noms d’écritures ». Le Consortium Unicode gère le bureau de l’autorité d’enregistrement et de maintenance de la norme pour le compte de l’ISO qui définit et approuve la… …   Wikipédia en Français

  • ISO 15924:Hans — Vergleich von Langzeichen und Kurzzeichen (rot: beiden Systemen Gemeinsames, grün: Langzeichen, lila: Kurzzeichen) Kurzzeichen (chin. 簡體字 / 简体字, jiǎntǐzì) sind die vereinfachte Version der traditionellen Langzeichen der chinesischen Schrift. Im …   Deutsch Wikipedia

  • ISO 15924:Hant — Vergleich von Langzeichen und Kurzzeichen (rot: beiden Systemen Gemeinsames, grün: traditionelle Langzeichen, lila: Kurzzeichen der VR China) Langzeichen werden auf Deutsch traditionelle, nicht vereinfachte chinesische Schriftzeichen genannt, wie …   Deutsch Wikipedia

  • List of ISO 15924 codes — This is the list of ISO 15924 codes by alpha 4 code, for the representation of names of scripts, as of 26 November 2007. External links* [http://www.unicode.org/iso15924/ The ISO 15924 Registration Authority’s official web site] *… …   Wikipedia

  • ISO 15924:Latf — Unterschiede bei Bögen von runden und gebrochenen Schriftarten Gebrochene Schrift (umgangssprachlich oft als altdeutsche Schrift oder ungenau nach einer ihrer Varianten Fraktur genannt) ist eine Sammelbezeichnung für eine Reihe lateinischer… …   Deutsch Wikipedia

  • ISO 15924:Latg — Die irische Schrift ist eine Unziale, eine Sonderform der lateinischen Schrift, wie es auch die Frakturschrift ist. Sie wurde ab etwa dem 7. Jahrhundert in Handschriften verwendet und seitdem geringfügig weiterentwickelt. Heute wird sie fast… …   Deutsch Wikipedia

  • ISO 15924:2004 — изд.1 F TC 46 Информация и документация. Коды для представления названий шрифтов разделы 01.140.10, 01.140.20 …   Стандарты Международной организации по стандартизации (ИСО)

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”