|
異体字セレクタ〔JIS X 0221:2007の規格票では「字形選択子」という訳語を当てているが、全く意味の異なる"Character shaping selectors"などにも全く同じ訳語を当てているので、混乱を避けるため本項では「異体字セレクタ」という訳語を用いる。〕 () は、付加された文字の字体をより詳細に指定する、Unicodeにおけるセレクタ(選択子)である。 == 解説 == Unicodeは文字コード (コンピュータ上で文字を扱うための電子的な表現) の規格であり、WindowsやMac OS Xなど、PCのオペレーティングシステムで広く使われている。Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である。 この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないため問題ない。しかし漢字などでは、運用上しばしば「別の字」とされる字形を、様々な経緯の結果「詳細/デザイン差」として同じ符号位置としてしまっているため、状況によっては、フォントの指定などを含めることができないプレーンテキスト上で字形の区別を保存したいという需要も存在する。 たとえば、 * ほとんどのオペレーティングシステムにおいてファイル名はプレーンテキストであり、プレーンテキストで区別できないものは区別できない。 * IMEに単語登録可能な文字列は通常プレーンテキストのみである。このためフォントの指定やDTPアプリケーションによる字形の選択が可能であっても、通常の文字入力とは異なる操作を要求される上に正しい組み合わせを覚えていなければならず、ほとんどの一般利用者にとって現実的な手間で入力できない。たとえばWindows Vistaではとを区別して表示できるが〔 デモ映像 〕、「かつしかく」が飾区、「かつらぎし」が城市のように区別して変換されるような単語登録はできない。ただしegbridgeなど、Mac OS Xのインプットメソッドのうちグリフアクセスプロトコルに対応したものはプレーンテキストの制約に縛られない。 * 電子メールの送信に使われるSMTPなどの情報交換用プロトコルは、情報交換をプレーンテキストで行うよう設計されている。このため、Mac OS Xのグリフアクセスプロトコルのように内部に閉じたテキスト処理ではプレーンテキストの制約を取り払ったシステムも、メールなどによる外部との情報交換では字形の区別を保存できない。 このような字形の区別にかかわる需要は、Unicodeの漢字統合の規則が国内での運用の実情に沿っていない日本では特に顕著であり、JISの各文字集合(JIS X 0208、JIS X 0212、JIS X 0213)やUnicodeで満たせない需要に対応するため、官庁では戸籍統一文字や住民基本台帳ネットワーク統一文字など、民間では今昔文字鏡やGTプロジェクトなど独自の大規模文字セットが繰り返し作成され、一部で運用されてきた。しかしそれらは独自であるがゆえに、Unicodeを使用している既存の大多数のPC環境と相互運用性がない。 異体字セレクタは以上のような問題をUnicode上で解決するために考案された特殊な「文字」(符号位置が与えられているもの、という意味では「文字」)である。HTMLやCSSなどのWeb標準を管理しているWorld Wide Web Consortiumは、HTMLなどのマークアップ言語においても字形を指定するために異体字セレクタを使うことを想定している。異体字セレクタのうち、特に漢字の異体字セレクタを指して、Ideographic Variation Selector略してIVSと呼ぶ。 異体字セレクタは、付加された文字の字形をより詳細に指定する機能を持つが、それ自身は表示されない。異体字セレクタはモンゴル文字専用のモンゴル自由字形選択子が180B〜U+180Dに3文字、特定の適用対象を定められていないものがU+FE00〜U+FE0FおよびU+E0100〜U+E01EFに256文字存在し、選択したい字形に応じて異なる異体字セレクタを付加する。異体字セレクタとそれが付加される文字との組み合わせ、および指定される字形は規格で定められており、それ以外の組み合わせは無視される。利用者が独自に考えた未登録の字形を利用したい場合には、私用領域の文字を使う。領域として私用の異体字セレクタ(Private Use Variation Selectors)を追加する提案もあった〔http://www.unicode.org/L2/L2003/03293-puvs.html〕が、取り入れられていない。 なお、U+303EにIDEOGRAPHIC VARIATION INDICATOR(直訳すると漢字異体字表示子)という似たような名称で、かつ例示字形が点線で囲まれている(通常は不可視である制御文字などを示す)ものが存在するが、これはこれに続く漢字が異体字であることを示す可視の記号 (下駄記号の異体字版) であり、異体字セレクタではない。 2014年9月現在Unicodeに登録されている異体字セレクタの組み合わせは、数学記号が23通り、モンゴル文字が64通り、パスパ文字が6通り〔、携帯電話の絵文字が214通り(テキストスタイルと絵文字スタイルが107通りずつ)、そして漢字がAdobe-Japan1-6に含まれる約14600通り、および汎用電子コレクション () に含まれる約13000通り〔、文字情報基盤コレクションに含まれる約10000通り、CJK互換漢字に対応するものが1002通りである。ただし汎用電子コレクションには、Adobe-Japan1コレクションと多数の重複がある。汎用電子コレクションと文字情報基盤コレクションは同一の字形は異体字セレクタを共有している。漢字は常用漢字の字形など日本において標準的な字形も登録されており、Adobe-Japan1-6に含まれるものなら、「一」のように単一の字形しか存在しないものでもその単一の字形が登録されている。汎用電子コレクションの方は、Adobe-Japan1-6とは異なり、同一コードポイントで複数の字形を持つもののみ登録されており、単一の字形しか存在しないものは登録されていない。 漢字の字形指定 (IVS) には、基本多言語面の異体字セレクタを使わない。このためIVSに対応し、UTF-16を使用するアプリケーションは、サロゲートペアを正常に扱えなければならない。なお、CJK互換漢字は、IVSではなく非漢字と同じStandardized Variantsとして登録されたため、漢字でありながら基本多言語面の異体字セレクタを使用する。 2012年1月には携帯電話の絵文字としても使われる107文字について、テキストスタイル(普通の文字のように白黒で表示)と絵文字スタイル(カラーで表示したり、アニメーションする)の切替を異体字セレクタで行えるようになった。使用する異体字セレクタは、テキストスタイルがU+FE0E(異体字セレクタ15)、絵文字スタイルがU+FE0F(異体字セレクタ16)となっている。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「異体字セレクタ」の詳細全文を読む スポンサード リンク
|