|
特徴選択(とくちょうせんたく、)とは、機械学習と統計学の用語であり、頑健な学習モデルの構築のため、特徴集合のうち意味のある部分集合だけを選択する手法のことを指す。特徴量選択、変数選択、特徴削減、属性選択、素性選択、変数部分集合選択などとも呼ばれる。生物学の文脈では、DNAマイクロアレイの実験に基づいて影響力のある遺伝子を検出する手法を指す場合もある。不要で冗長な特徴量をデータから除去することによって、特徴選択は学習モデルを次の点で改善する: * 次元の呪いの効果を緩和する。 * 汎化性能を向上させる。 * 学習を高速化する。 * モデルの可読性を改善する。 特徴選択を行うと、データのうちどの特徴量が重要でありどのようにそれらが関係しているかなどといった点について、人間が理解しやすくなるという効果もある。 ==導入== 単純な特徴選択アルゴリズムは場当たり的なものだが、より系統だったアプローチも存在する。理論的観点からは、教師あり学習問題において最適な特徴選択を行うには、選ばれた大きさのすべての部分集合を特徴集合から取り出し、総当たりで試す必要があるということが証明できる。特徴の数が多くなれば、このやり方は実用的でなくなる。実用的な教師あり学習アルゴリズムの特徴選択では、最適な集合ではなく満足できる集合を求めることになる。 特徴選択アルゴリズムは典型的には、特徴ランキングと部分集合選択という二つのカテゴリに分類される。特徴ランキングでは、ある指標によって特徴をランクづけし、一定のスコアに達しなかった特徴を除去する。部分集合選択では、最適な部分集合を目指して特徴の組み合わせを探索する。 統計学では、がもっともよく用いられる特徴選択の形態である。この手法は、各ステップにおいてもっとも良い特徴を追加する(もしくはもっとも悪い特徴を除去する)貪欲アルゴリズムである。機械学習では交差検証によって特徴の良さを評価することが多く、統計学ではなんらかの規準を最適化することが多い。このやり方には入れ子型の特徴量に関する問題が内在しているため、分枝限定法や区分線形ネットワークなど、より頑健な手法が研究されている。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「特徴選択」の詳細全文を読む 英語版ウィキペディアに対照対訳語「 Feature selection 」があります。 スポンサード リンク
|