|
Unicodeの互換文字(ごかんもじ、)とは、ユニコードコンソーシアムが使わないことを推奨している、図形文字の一群である。UnicodeとUCSについて議論するときに言及されることが多い。 Unicodeコンソーシアムの用語集〔Unicode Consortium - Glossary - Compatibility Character (英語)〕によると、既存の文字コードとの互換性と往復変換のためだけに収録された文字のことである。 しかし、定義はその用語集に表れているものよりも複雑である。ユニコードコンソーシアムが文字に与えている特性〔Unicode Terminology English - Japanese, P-Q , Unicode, Inc.〕()の1つとして、文字の分解や互換分解がある。ほとんどの文字はこの特性に値を持たないが、5千を超える文字に互換文字から1つかそれ以上の他の文字へ互換分解がある。Unicodeは分解特性が設定されている文字が互換文字であると定めている。これらの互換性を指示することの理由はさまざまであり、詳細は後述する。文字は1文字に「分解」される場合もあるので、分解という用語は混乱を招くことがある。この場合、1文字の分解は単に等価な(もしくはおおむね等価な)別の文字への置き換えである。 == 正準と非正準 == 5,402種類のUnicode互換文字の互換分解特性には、互換文字を17の論理的なグループに分けるキーワードが含まれている。キーワードのないものは正準等価()なもしくは正準分解可能な文字()という用語で呼ばれる。これらの文字は最も近い関係を持つ。他のキーワードは以下のとおりである: <initial>、<medial>、<final>、<isolated>、<wide>、<narrow>、<small>、<square>、<vertical>、<circle>、<noBreak>、<fraction>、<subscript>、<superscript>、<compat>。これらのキーワードは、互換文字とその互換分解文字の並びとの間に存在する関係を暗示する。しかし、互換文字は — 正準であるかどうかを問わず — 3つの基本的なカテゴリに分けられる: # 複数の代替字形に対応する文字と合成済みのダイアクリティカルマーク。完全なUnicodeのテキスト描画処理に対応していないソフトウェアやフォントの実装をサポートするためもの。 # 他の文字コードから収録された文字。さもなければUnicodeの目的であるプレーンテキストよりむしろリッチテキストの構成要素としてUCSに追加されたもの。 # その他の意味的には異なるが、視覚的には似ている文字。 これらの意味的に異なる文字は他の文字のグリフと似たグリフで表示されることがあるので、テキスト処理ソフトウェアは起こりうる混乱を解決するようエンドユーザーのために努力すべきである。テキスト文字列の比較や照合(並べ替え)を行うとき、異なる字形や文字のリッチテキスト版がテキスト処理の結果を変えるべきではない。たとえば、ソフトウェアの利用者は大文字のラテン文字‘I’をページ上で検索したときに、そのソフトウェアが視覚的に類似したローマ数字の‘’を見つけられなかったら混乱するかもしれない。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「Unicodeの互換文字」の詳細全文を読む スポンサード リンク
|