|
文字符号化方式(もじふごうかほうしき、、CES)とは、符号化文字集合で文字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列(通常、バイト列)に変換する符号化方式。 文字符号化体系、文字符号化スキーム () とも言う。文字について述べていることが明確なときは、単に符号化方式、またIBMの用語ではコード化体系 () などとも言う。 この用語はUnicodeやIETFの標準などで用いているが、ISO/IECやJISの標準では用いず「符号化文字集合の構造」あるいは「文字符号の構造及び拡張法」として扱われている。この用語の定義は、世界の文字コード規格とは必ずしも合致しないことがある。 ==符号化文字集合と文字符号化方式== 符号化文字集合とCESの関係を示すため、JIS X 0208を例にとる。なお、話を簡単にするため、附属書は無視する。 JIS X 0208は、符号化文字集合であり、文字の表と、各文字に対応付けられた1区1点~94区94点の番号(区点)と、それに対応したビット組合せからなる。例えば、「亜」という漢字の区点番号は16区1点であり、対応するビット組合せは x0110000 x0100001 の2バイトである (xは呼出し先がGLであれば0、GRであれば1)。こうした符号化文字集合について、他の符号化文字集合と組み合わせたり、計算によって変形したりする方式を、文字符号化方式 (CES) と呼ぶことがある。また、特定の符号化文字集合とCESとの組み合わせによって実現する文字列の表現を符号化表現と呼ぶことがある (符号化表現はキャラクタセットとほぼ同義である)。 1つの符号化文字集合に適用できるCESが複数ある場合、符号化表現も1つではない。JIS X 0208の場合、主要なものとして、ISO-2022-JP (RFC1468符号化表現)、EUC-JP、Shift_JISがある。 ISO-2022-JPは、JIS X 0208の文字に対応付けた1~94の区点を、それぞれ2116~7E16の範囲の1バイト、計2バイトで表す。さらに、エスケープ・シーケンスを使い、ASCII、JIS X 0201など別の文字集合に切り替えることができる。このように、1つのCESが使う符号化文字集合は、1つとは限らない。 ほとんどの場合、ISO-2022-JPのように符号化文字集合とバイト列の対応は単純であるが、常にそうだとは限らない。Shift_JISでは、JIS X 0208文字集合を、複雑な計算式により、2バイトで表現できる000016~FFFF16のうちJIS X 0201と競合しない長方形の領域に詰め込んでいる。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「文字符号化方式」の詳細全文を読む スポンサード リンク
|