翻訳と辞書 |
Unicode正規化[ゆにこーどせいきか] Unicode正規化(ユニコードせいきか、)とは、等価な文字や文字の並びを統一的な内部表現に変換することでテキストの比較を容易にする、テキスト正規化処理の一種である。一般に、正規化はテキストの文字列を検索や整列のために比較(照合、)するときに重要である〔Unicodeの照合仕様は、正規化形式仕様とは別に、Unicode Technical Standard #10 "Unicode Collation Algorithm"で定義される。〕。 ==合成と分解== Unicodeの正規化手段の基礎は、文字の合成と分解という概念である。文字の合成とは、文字 n と合成用の ~ 文字を単独の ñ 文字に変換する、濁点付きかな文字を単独文字とするなどの、結合用のより単純な文字をより文字数の少ない合成済み文字にする手続きである。分解はその逆で、合成済みの文字を分割してその構成要素に戻す。 Unicodeは等価性と呼ばれるものに基づいて結合文字を合成し、互換文字を分解する。Unicodeはこの等価性の幅の変化に応じて、2種類の標準を持っている。1つは正準()と呼ばれ、機能的に等しく視覚的にも識別不可能であるべき文字を識別する。もう1つは互換文字()と呼ばれ、視覚的に異なり意味的にも異なるかもしれないものを識別する。詳細はUnicodeの等価性とUnicodeの互換文字の記事を参照。
抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「Unicode正規化」の詳細全文を読む
スポンサード リンク
翻訳と辞書 : 翻訳のためのインターネットリソース |
Copyright(C) kotoba.ne.jp 1997-2016. All Rights Reserved.
|
|