|
冗長性(じょうちょうせい、)とは、情報理論において、あるメッセージを転送するのに使われているビット数からそのメッセージの実際の情報に必須なビット数を引いた値である。冗長度、冗長量とも。大まかに言えば、あるデータを転送する際に無駄に使われている部分の量に相当する。好ましくない冗長性を排除・削減する方法として、データ圧縮がある。逆にノイズのある通信路容量が有限な通信路で誤り検出訂正を行う目的で冗長性を付与するのが、チェックサムやハミング符号などである。 == 定量的定義 == データの冗長性を表現するにあたって、まず情報源のエントロピー率(レート)が記号ごとのエントロピーの平均であることに注目する。メモリをもたない情報源では、これは単に各記号のエントロピーだが、多くの確率過程では次のようになる。 : これは ''n'' 個の記号の結合エントロピーを ''n'' で割ったものの ''n'' が無限大になったときの極限である。情報理論では、言語の「レート」や「エントロピー」を扱うことが多い。これは例えば、情報源が英語などの言語の文である場合には適切である。メモリのない情報源では、その逐次的メッセージ列に相互依存が全くないため、レートは定義から となる。 言語または情報源の絶対レート(absolute rate)は単純に次のようになる。 : これは、メッセージ空間あるいはアルファベットの濃度(cardinality)の対数である。この式を「ハートレー関数 (Hartley function)」と呼ぶこともある。これがそのアルファベットで転送可能な情報の最大のレートとなる。対数の底は測定単位を考慮して決定される。情報源にメモリがなく、一様分布であるとき、絶対レートは実際のレートと等しい。 以上から、絶対冗長性(絶対冗長量)は次のように定義される。 : これはつまり、絶対レートと実際のレートの差である。 を相対冗長性(相対冗長量)と呼び、可能な最大データ圧縮比を表している。すなわち、ファイルサイズがどれだけ削減できるかということと等価である。冗長性と対をなす概念として効率(efficiency)があり、 で表される。したがって、 である。メモリのない一様分布の情報源は、冗長性がゼロで効率が100%であり、圧縮できない。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「冗長性(じょうちょうせい、)とは、情報理論において、あるメッセージを転送するのに使われているビット数からそのメッセージの実際の情報に必須なビット数を引いた値である。冗長度、冗長量とも。大まかに言えば、あるデータを転送する際に無駄に使われている部分の量に相当する。好ましくない冗長性を排除・削減する方法として、データ圧縮がある。逆にノイズのある通信路容量が有限な通信路で誤り検出訂正を行う目的で冗長性を付与するのが、チェックサムやハミング符号などである。== 定量的定義 ==データの冗長性を表現するにあたって、まず情報源のエントロピー率(レート)が記号ごとのエントロピーの平均であることに注目する。メモリをもたない情報源では、これは単に各記号のエントロピーだが、多くの確率過程では次のようになる。:r = \lim_ \frac H(M_1, M_2, \dots M_n),これは ''n'' 個の記号の結合エントロピーを ''n'' で割ったものの ''n'' が無限大になったときの極限である。情報理論では、言語の「レート」や「エントロピー」を扱うことが多い。これは例えば、情報源が英語などの言語の文である場合には適切である。メモリのない情報源では、その逐次的メッセージ列に相互依存が全くないため、レートは定義から H(M) となる。言語または情報源の絶対レート(absolute rate)は単純に次のようになる。:R = \log |M| ,\,これは、メッセージ空間あるいはアルファベットの濃度(cardinality)の対数である。この式を「ハートレー関数 (Hartley function)」と呼ぶこともある。これがそのアルファベットで転送可能な情報の最大のレートとなる。対数の底は測定単位を考慮して決定される。情報源にメモリがなく、一様分布であるとき、絶対レートは実際のレートと等しい。以上から、絶対冗長性(絶対冗長量)は次のように定義される。: D = R - r ,\,これはつまり、絶対レートと実際のレートの差である。\frac D R を相対冗長性(相対冗長量)と呼び、可能な最大データ圧縮比を表している。すなわち、ファイルサイズがどれだけ削減できるかということと等価である。冗長性と対をなす概念として効率(efficiency)があり、\frac r R で表される。したがって、 \frac r R + \frac D R = 1 である。メモリのない一様分布の情報源は、冗長性がゼロで効率が100%であり、圧縮できない。」の詳細全文を読む スポンサード リンク
|