Le retour des idéogrammes
- Par Nadine Lucas
Pages 183 à 210
Citer cet article
- LUCAS, Nadine,
- Lucas, Nadine.
- Lucas, N.
Citer cet article
- Lucas, N.
- Lucas, Nadine.
- LUCAS, Nadine,
Notes
-
[1]
Bien qu’il soit encore fréquent d’employer dans des textes français les acronymes anglais comme CJK, UCS, etc., nous préférons employer ici des termes français. On trouvera à la fin de ce numéro spécial un index bilingue de ces sigles et acronymes.
-
[2]
Jeu universel de caractères, en anglais UCS Universal Multiple-Octet Coded Character Set.
-
[3]
Voir l’article d’Olivier Randier dans ce numéro.
-
[4]
Wireless Application Protocol, ou protocole d’accès sans fil, pour l’accès à internet à partir de supports mobiles, les assistants personnels ou PDA Personal Digital Assistant.
-
[5]
Voir à l’adresse http:// www. unicode. org/ UnihanDatabase.
-
[6]
La transcription alphabétique latine du vietnamien a été introduite pour la communauté catholique au 17e siècle par le jésuite Alexandre de Rodhes et la large diffusion de cette notation a été soutenue par les autorités coloniales puis par les communistes.
-
[7]
Pour de plus amples renseignements, voir par exemple http:// www. sigmainstitute. com/ koreanonline/ hangul_history. shtml
-
[8]
Un des fondateurs du consortium Unicode.
-
[9]
En anglais radical.
-
[10]
Ce n’est pas à proprement parler un format de codage, mais il peut être utilisé notamment comme identifiant dans un document XML.
-
[11]
IRG Ideographic Rapporteur Group pour ISO/CEI.
-
[12]
Si l’on connaît le code du caractère ou d’un caractère voisin, l’adresse à consulter pour un accès direct est http:// www. unicode. org/ cgi-bin/ UnihanGrid. pl? codepoint= UUUU où les lettres u sont remplacées par le code hexadécimal JUC du caractère Han.
-
[13]
Lorsque l’on connaît le numéro de clé KangXi, on peut accéder directement à l’information sur les complexes. L’adresse à consulter est http:// www. unicode. org/ cgi-bin/ UnihanRSIndex. pl? radical= X&minstrokes= Y&maxstrokes= Z où la lettre X est remplacée par le code de la clé, Y par le nombre de traits additionnels minimum souhaité et Z le nombre de traits additionnels maximum.
-
[14]
Voir à l’adresse http:// www. unicode. org/ cgi-bin/ GetUnihanData. pl? codepoint= UUUU. Les lettres u sont remplacées par le code hexadécimal JUC du caractère Han. On peut cocher la case UTF-8 pour un accès plus rapide.
-
[15]
Il est tiré d’un journal de la Fondation du Japon qui propose des articles faciles à lire pour les apprenants du japonais. Shikisha to bokokugo, Iwaki H. Nihongo kyôiku tsûshin 15, 1993.
-
[16]
Il en existe plusieurs possibles pour un même caractère, les périodes et régions d’emprunt ayant varié au cours de l’histoire.
-
[17]
Advanced Telecommunications Research Institute International.
-
[18]
Computational Linguistics, congrès international parrainé par l’ACL Association for Computational Linguistics.
-
[19]
Pacific Asia Conference on Language, Information and Computation.
Résumé
Le standard d’usage couramment appelé Unicode, basé sur la norme ISO/CEI 10646 permet de traiter de façon unifiée les écritures codées sur deux octets, notamment les écritures idéographiques, un temps méprisées, Unihan, base d’idéogrammes, et le code de conversion UTF permettent l’échange d’information entre pays du monde sinisé mais aussi avec les autres zones culturelles. Le japonais représente un cas particulier, par la conjonction d’une histoire complexe de l’écriture et d’un savoir-faire technologique de pointe. L’intégration d’Unicode permet l’accès à des ressources documentaires de toute origine, indépendamment du codage, ainsi que leur traitement et stockage informatique. Une aubaine pour le Japon, qui cultive l’ouverture au monde.
Mots-clés
- Unicode
- japonais
- caractères chinois
- idéogrammes
- CJC
- Unihan
- traitement automatique multilingue
- fouille de texte
Mots-clés éditeurs : caractères chinois, CJC, fouille de texte, idéogrammes, japonais, traitement automatique multilingue, Unicode, Unihan
Unicode CJC vu du Japon
Abstract
The Unicode standard based on the ISO/IEC 10646 standard allows anyone to collect and read any text in any graphical form including ideographs. Japan obviously benefits from this new standard, both by saving its cultural assets and by opening the way for international information retrieval and processing.
Keywords
- Unicode
- Japanese
- Chinese characters
- CJK
- Unihan
- information monitoring
- text mining
- multilingual information processing
Mots-clés éditeurs : Chinese characters, CJK, information monitoring, Japanese, multilingual information processing, text mining, Unicode, Unihan