|
k平均法(kへいきんほう、)は、非階層型クラスタリングのアルゴリズム。クラスタの平均を用い、与えられたクラスタ数k個に分類することから、MacQueen がこのように命名した。k-平均法(k-means)、c-平均法(c-means)とも呼ばれる。 何度か再発見されており、まず、Hugo Steinhus が1957年に発表し、Stuart Lloyd が1957年に考案し、E.W.Forgy が1965年に発表し、James MacQueen が1967年に発表し k-means と命名した。 数式で表現すると、下記最適化問題を解くアルゴリズム〔 〕。本アルゴリズムでは最小値ではなく初期値依存の極小値に収束する。 : 単純なアルゴリズムであり、広く用いられている。分類をファジィ化したファジィc-平均法やエントロピー法をはじめ、データ構造を発見するさまざまな応用手法が提案されている。 == アルゴリズム == k-平均法は、一般には以下のような流れで実装される。データの数を n 、クラスタの数を k としておく。 # 各データ に対してランダムにクラスタを割り振る。 # 割り振ったデータをもとに各クラスタの中心 を計算する。計算は通常割り当てられたデータの各要素の算術平均が使用されるが、必須ではない。 # 各 と各 との距離を求め、 を最も近い中心のクラスタに割り当て直す。 # 上記の処理で全ての のクラスタの割り当てが変化しなかった場合、あるいは変化量が事前に設定した一定の閾値を下回った場合に、収束したと判断して処理を終了する。そうでない場合は新しく割り振られたクラスタから を再計算して上記の処理を繰り返す。 結果は、最初のクラスタのランダムな割り振りに大きく依存することが知られており、1回の結果で最良のものが得られるとは限らない。そのため、何度か繰り返して行って最良の結果を選択する手法や、k-means++法のように最初のクラスタ中心点の振り方を工夫する手法などが使用されることがある。 なお、このアルゴリズムではクラスタ数 k は最初に所与のものとして定めるため、最適なクラスタ数を選ぶには他の計算等による考察を用いる必要がある。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「K平均法」の詳細全文を読む 英語版ウィキペディアに対照対訳語「 K-means clustering 」があります。 スポンサード リンク
|