|
カルバック・ライブラー情報量(カルバック・ライブラーじょうほうりょう、英: ''Kullback–Leibler divergence''、カルバック・ライブラー・ダイバージェンス)とは、確率論と情報理論における2つの確率分布の差異を計る尺度である。情報ダイバージェンス(Information divergence)、情報利得(Information gain)、相対エントロピー(Relative entropy)とも呼ばれる。 2つの確率分布の差異を表す事から、カルバック・ライブラー距離 と呼ばれる事もあるが、距離の公理を満たさないので、数学的な意味での距離ではない。 応用上は、「真の」確率分布 ''P'' とそれ以外の任意の確率分布 ''Q'' に対するカルバック・ライブラー情報量が計算される事が多い。 例えば''P'' はデータ、観測値、正確に計算で求められた確率分布などを表し、''Q'' は理論値、モデル値、''P'' の予測値などを表す。 この概念は1951年、ソロモン・カルバックとリチャード・ライブラーが2つの分布の間の directed divergence として用いたのが最初であり、ベクトル解析におけるダイバージェンスとは異なる概念である。 カルバック・ライブラー情報量は離散分布のみならず連続分布に対しても定義されており、連続分布に対するカルバック・ライブラー情報量は変数変換について不変である。従って、情報理論の他の量(自己情報量やエントロピー)よりも基本的であるとも言える。というのも、それらは離散的でない確率については未定義だったり、変数変換に対して不変ではなかったりするからである。 == 定義 == ''P'' 、 ''Q'' を離散確率分布とするとき、''P'' の ''Q'' に対するカルバック・ライブラー情報量は以下のように定義される。 : ここで''P(i)'' 、''Q(i)'' はそれぞれ確率分布''P'' 、 ''Q'' に従って選ばれた値が ''i'' の時の確率。 一方''P'' 、 ''Q'' が連続確率分布の場合は以下のように定義される。 : ここで、''p'' 、 ''q'' はそれぞれ ''P'' 、 ''Q'' の確率密度関数を表す。 より一般に、 ''P'' 、''Q''が可測集合X上の確率測度で、''P'' 、''Q'' がなんらかの測度μに対して絶対連続な場合には、 : と定義できる。ここで、 はラドン・ニコディム導関数。 これらの式に出てくる対数の底は、情報の単位をビットとするときは 2 とし、ナットを単位とするときは ''e'' を底とする。カルバック・ライブラー情報量に関わる方程式の多くは対数の底が何であろうと無関係である。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「カルバック・ライブラー情報量」の詳細全文を読む スポンサード リンク
|