|
UnicodeやISO/IEC 10646には、単純計算で U+0000 ~ U+10FFFF の 1,114,112 = 220 + 216 個の符号位置がある。 Unicode 5.0.0の時点で、これらの符号位置のうち 102,012 (9.2%) が割り当て済みであり、ほかに 137,468 (12.3%) が#私用文字に、2,048 が#代用符号位置に予約されており、そして 66 が#非文字に指定され、872,582 (78.3%) が未割り当てのまま残されている。割り当てられた符号位置の数は以下のような構成である。 * 2,684 は特定のブロック内への割り当てのために予約されている。 * 98,893 は図形文字である。 * 435 は制御、整形、グリフ/文字の異体字選択用の#その他の特殊用途文字である。 (さらに詳細な内訳は#UCS文字割り当ての集計表を参照) Unicodeの文字はさまざまな方法で分類できる。すべての文字は用字 (''script'') が割り当てられている。なお、たくさんの文字に「Common」(用字をまたがって共通に使う)、もしくは「Inherited」(隣接した文字から用字を受け継ぐ) という用字が割り当てられている。Unicodeにおける用字とは、字のみならず、その用字特有の句読点、ダイアクリティカルマーク、および他のマークや数字や記号をも含む一貫した書記体系である。一つの用字が一つかそれ以上の言語をサポートする。 文字は文字の''ブロック''に割り当てられる。これらのブロックは通常8の倍数個の符号位置群である。多くは、たとえば128個か256個の符号位置のブロックにグループ分けされる。すべての文字は一般カテゴリ (''general category'') と下位カテゴリも割り当てられている。一般カテゴリは次の通り——字 (letter), マーク (mark)、数字 (number)、句読点 (punctuation)、記号 (symbol)、もしくは制御文字 (control; 言い換えると書式文字または非図形文字)。 文字のブロックは各種の面 (''plane'') に割り当てられている。現在ほとんどの文字は、最初の面である基本多言語面 (''Basic Multilingual Plane'') に割り当てられている。基本多言語面は2オクテットのみで指定可能であるため、これは従来のソフトウェアからの移行を容易にすることを助ける。最初の面に含まれない文字は通常きわめて特殊なものであるか、めったに使われない。 最初の256個の符号位置は、西洋でもっとも広く使われている8ビットの文字コードであるISO/IEC 8859-1のものに対応する。結果として、最初の128文字はASCIIとも等価である。Unicodeはこれらをラテン文字のブロックとして参照しているが、これらの2ブロックはラテン文字以外でも広く有用な文字を多数含む。 == 面 == *第0面(Plane 0)は、基本多言語面(英:Basic Multilingual Plane; BMP)であり、最もよく使う、基本的な文字・記号のほとんどが収録されている。 *第1面(Plane 1)は、追加多言語面(英:Supplementary Multilingual Plane; SMP)であり、現在使うもののいない古代の用字系や人工文字など、基本多言語面に入りきらなかった文字のうち漢字以外を収録する。 *第2面(Plane 2)は、追加漢字面(英:Supplementary Ideographic Plane; SIP)であり、基本多言語面に入りきらなかった漢字を収録する *第3面(Plane 3)は、第三漢字面(英:Tertiary Ideographic Plane; TIP)であり、亀甲獣骨文字や金文などの現在使用されない漢字が収録される。 *第14面(Plane 14)は、追加特殊用途面(英:Supplementary Special‐purpose Plane; SSP)であり、言語タグや異体字セレクタなどの制御コードが収録されている。 *第15面(Plane 15)および第16面(Plane 16)は、私用面である。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「Unicode文字のマッピング」の詳細全文を読む スポンサード リンク
|