|
赤池情報量規準(あかいけじょうほうりょうきじゅん; 元々は An Information Criterion, のちに Akaike's Information Criterionと呼ばれるようになる)は、統計モデルの良さを評価するための指標である。単に AIC とも呼ばれ、この呼び方のほうが一般的である。統計学の世界では非常に有名な指標であり、多くの統計ソフトに備わっている。元統計数理研究所所長の赤池弘次が1971年に考案し1973年に発表した〔Akaike, H., "Information theory and an extension of the maximum likelihood principle", Proceedings of the 2nd International Symposium on Information Theory, Petrov, B. N., and Caski, F. (eds.), Akadimiai Kiado, Budapest: 267-281 (1973).〕。 AICは、「モデルの複雑さと、データとの適合度とのバランスを取る」ために使用される。例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしまうため、同種のデータには合わなくなる(過適合問題、Overfitting)。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。AICは、この問題に一つの解を与える。具体的にはAIC最小のモデルを選択すれば、多くの場合、良いモデルが選択できる〔坂元慶行, 石黒真木夫, 北川源四郎, 情報量統計学, 共立出版 (1983).〕。 公式は次の通りである。 ここでは最大尤度、は自由パラメータの数である。 ==式の変形== AICは他にもさまざまな形で表される。 パラメータの数として局外変数(誤差の大きさを表すパラメータ)を数えない流儀があり、その場合、 となる。ここでは区別のため大文字の ''K'' を使ったが、通常は双方の「パラメータ数」の表現にはっきりした使い分けはない。AICはモデル間の互いの差のみが意味を持つため、定数項は無視し、2行目のように定義することもある。式の見かけは冒頭の式と同じだが、値は異なる。 各標本の誤差項が独立で確率分布が正規分布の場合、 と表せる。''n'' は標本サイズ、σ は各標本の標準誤差である。2行目は、定数項を省略した値である。 それに加えさらに、各標本の標準誤差が等しい場合は、 とまで単純化できる。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「赤池情報量規準」の詳細全文を読む スポンサード リンク
|