|
分類(ぶんるい、)や統計的分類や統計的識別とは、統計学において、データを複数のクラス(グループ)に分類すること。2つのクラスに分ける事を二項分類や二値分類、多数のクラスに分ける事を多クラス分類という。Y = f(X) というモデルを適用する際に、Y が離散であれば分類、連続値であれば回帰である。 個体をクラス分けする統計的手続きの一つであり、分類対象に固有な1つ以上の特性についての数値化された情報に基づいて実施される。このとき、事前にラベル付けされた訓練例()を用いる。 形式的に表すと、次のようになる。訓練データ から、オブジェクト から分類ラベル へマップする分類器(、識別器とも) を生成するのが統計分類である。例えば、スパムのフィルタリングをする場合、 は具体的な電子メールの例であり、 は "Spam" か "Non-Spam" のどちらかである。 統計的分類アルゴリズムは主にパターン認識システムなどで使われる。 注: 群集生態学で言う「分類; classification」という用語は、一般に(たとえば機械学習で)データ・クラスタリングと呼ばれているものと同じものを指す。詳しくは教師なし学習などを参照されたい。 == 技法 == 分類手法は多数存在するが、それらは3つの相互に関連する数学的問題のいずれかを解決する。 第一の問題は、特徴空間(一般に多次元のベクトル空間)からラベルの集合への写像を求める問題である。これは、特徴空間を領域分割して、各領域にラベルを割り当てるのと同じである。このようなアルゴリズム(例えばk近傍法)は事後処理を行わないとクラス確率を生成できないのが一般的である。この問題を解く別のアルゴリズムとしては、特徴空間への教師なし クラスタリングの適用をし、次いで各クラスターまたは領域にラベルを付ける。 第二の問題は、統計分類を一種の予測問題とみなし、以下のような形式の関数を予測することを目標とするものとみなす。 : ここで、特徴ベクトル入力が であり、関数 ''f'' は一般に の一部によってパラメータ化される。この問題のベイズ推定的アプローチでは、唯一のパラメータベクトル を選ぶのではなく、考えられる全てのθの積分が結果となり、各θが訓練データ ''D'' によって与えられる確率で重み付けされる。 : 第二の問題とも関連するが、第三の問題は条件付き確率 を推測する問題であり、それに第二の問題のようにクラス確率を生成するためにベイズの定理を利用する。 主な統計分類アルゴリズム: * 線形分類器 * フィッシャーの線形判別分析 * ロジスティック回帰 * 単純ベイズ分類器 * 単純パーセプトロン * 線形サポートベクターマシン * 二次分類器 * 二次判別分析 * その他、非線形など * k近傍法 * ブースティング * 決定木 * ニューラルネットワーク * ベイジアンネットワーク * サポートベクターマシン * 隠れマルコフモデル 問題の性質(分類すべきデータ)と各種分類アルゴリズム(分類器)の性能の関係は、未だ解決されていない興味深い問題である。Van der Walt と Barnard(参考文献参照)は特定の人工的なデータ群を使って、どの分類器がよい性能を示すかを研究した。 分類器の性能は分類すべきデータの特性に大きく依存する。あらゆる問題について最高の性能を示す分類器は存在しない(ノーフリーランチ定理と同様の現象である)。分類器の性能を比較し、データの特性を特定するために各種実験的検証を実施して分類器の性能を決定する。ただし、ある問題に適した分類器を特定する手法は科学というよりも技能である。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「分類 (統計学)」の詳細全文を読む スポンサード リンク
|