翻訳と辞書
Words near each other
・ uterus bicornis
・ uterus bilocularis
・ uterus bipartitus
・ uterus duplex
・ uterus simplex
・ uterus unicornis
・ UTF
・ UTF-16
・ UTF-16BE
・ UTF-16LE
・ UTF-32
・ UTF-7
・ UTF-8
・ UTF-8N
・ UTF-EBCDIC
・ UTF16
・ UTF8
・ UTH
・ UTHD
・ UTI


Dictionary Lists
翻訳と辞書 辞書検索 [ 開発暫定版 ]
スポンサード リンク

UTF-32 : ウィキペディア日本語版
UTF-32[および]

UTF-32(およびUCS-4#歴史を参照)は、Unicodeの各符号位置32ビット符号単位一つだけを使う、固定長のUnicodeの符号化形式及び符号化スキーム(文字符号化方式#文字符号化形式と文字符号化スキーム)である。他のUTF()はすべて符号位置によって符号単位列の長さが変化する可変長であるため、UTF-32はもっとも単純なUTFであるとみなせる。
UTF-32は、テキストファイルで使用されることは少なく、主にシステムのメモリ上での管理や、符号位置の数で管理するデータベースなどで使用される。
== 概要 ==
一般にシステムが文字を扱う場合には、必要な1つの符号位置にアクセスすることで文字情報(グリフの形状や文字の持つ意味など)を取得する。UTF-32の場合は対象の1領域のみアクセスすることで対象となる文字情報を得ることができるが、可変長のUnicode形式では1つの符号位置を特定するために複数回のアクセスが必要となる。そのため、アクセス対象のメモリ上に配置する場合には固定長であるUTF-32が使用されることがある。
昨今のデータベースでは、バイト数ではなく、符号位置の数で領域を確保できる型を利用できる。符号位置数の型では他のUnicode形式では固定のバイト数を確保できないが、UTF-32の場合にはバイト数が固定であるため物理サイズをディスク上に確保することが可能である。
データのサイズで見た場合、他の文字符号化スキームと比較するとサイズは大きくなる。また文字列の表示幅の計算も、非常に限られた場合を除いて全く簡単にはならない。なぜならば「固定幅」フォントを使った場合でさえ、一つの文字位置に対して複数の符号位置が存在するかもしれない(結合文字など)し、一つの符号位置に対して複数の文字位置を使うかもしれない(CJKV漢字など)。結合文字があるので、エディタは1つの符号位置を編集時の一単位とみなすこともできない。
これらの理由からデータの交換などの場合にはUTF-32はほとんど使われず、UTF-8UTF-16がUnicode文書の通常の符号化スキームとして使われている。
なお、特定の文字がUnicodeでどの符号位置になるかをテキストで表現する場合には、U+10001などのようにUTF-32で扱った場合の16進数表記が使用されることがほとんどである。
テキスト形式で扱う場合、UTF-32は先頭にバイト順マーク (BOM) をつける。先頭の4バイトの並びが FF FE 00 00 ならリトルエンディアンとなり、00 00 FE FF ならビッグエンディアンとなる。
プログラム言語においてはUTF-32は大文字Uを利用することが多く、C言語(C11)、C++(C++11)などでは文字列の前に置くことでUTF-32で処理されるようになる。

抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)
ウィキペディアで「UTF-32」の詳細全文を読む




スポンサード リンク
翻訳と辞書 : 翻訳のためのインターネットリソース

Copyright(C) kotoba.ne.jp 1997-2016. All Rights Reserved.