|
バックプロパゲーション()または誤差逆伝播法(ごさぎゃくでんぱほう)〔逆誤差伝搬法(ぎゃくごさでんぱんほう)と呼ばれることもあるが,電波伝播に対する電波伝搬と同じく誤読に起因する誤字である。〕は、機械学習において、ニューラルネットワークを学習させるための教師あり学習のアルゴリズムである。1986年に''backwards propagation of errors''(後方への誤差伝播)の略からデビッド・ラメルハートらによって命名された〔。 隠れ層のない2層のニューラルネットワークでの出力誤差からの確率的勾配降下法は1960年にB. Widrow と M.E. Hoff, Jr. らが Widrow-Hoff 法(デルタルール)という名称で発表した。隠れ層のある3層以上の物は、1967年に甘利俊一が発表した。その後、何度も再発見され、1969年に(Arthur E. Bryson)とが多段動的システム最適化手法として提案した。ニューラルネットワークでの応用の物として、1974年の〔Paul J. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974〕がある。1986年のデビッド・ラメルハート、ジェフリー・ヒントン、らの再発見により定着し、特に1986年の発表以降ニューラルネットワーク研究が注目を浴び再活性化することになった。 教師あり学習手法であり、を一般化したものと言える。訓練集合を作るには、多数の入力について必要とされる出力を事前に定めておく必要がある。フィードフォワードネットワーク(フィードバックを持たない、あるいは単にループするコネクションを持たないネットワーク)で最も効果を発揮する。バックプロパゲーションでは、人工ニューロン(または「ノード」)で使われる活性化関数が可微分でなければならない。 == 概要 == 技術の要約は次の通りである: # ニューラルネットワークに学習のためのサンプルを与える。 # ネットワークの出力とそのサンプルの最適解を比較する。各出力ニューロンについて誤差を計算する。 # 個々のニューロンの期待される出力値と倍率(scaling factor)、要求された出力と実際の出力の差を計算する。これを局所誤差と言う。 # 各ニューロンの重みを局所誤差が小さくなるよう調整する。 # より大きな重みで接続された前段のニューロンに対して、局所誤差の責任があると判定する。 # そのように判定された前段のニューロンのさらに前段のニューロン群について同様の処理を行う。 このアルゴリズムの名が暗示するように、エラー(および学習)は出力ノードから後方のノードへと伝播する。技術的に言えば、バックプロパゲーションはネットワーク上の変更可能な重みについて、誤差の傾斜を計算するものである〔Paul J. Werbos (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc.〕。この傾斜はほとんどの場合、誤差を最小にする単純なアルゴリズムである確率的最急降下法で使われる。「バックプロパゲーション」という用語はより一般的な意味でも使われ、傾斜を求める手順と確率的最急降下法も含めた全体を示す。バックプロパゲーションは通常すばやく収束して、対象ネットワークの誤差の局所解(区間を限定したときの極小値、極値参照)を探し出す。 バックプロパゲーションを行う場合、ネットワークは少なくとも三層以上でなければならない(入力層、中間層、出力層)。また、多層ネットワークの中間層が意味のある関数を表すには、非線形の活性化関数でなければならない。線形な活性化関数の多層ネットワークは、単層ネットワークと等価である。非線形の活性化関数としては、ロジスティック関数(中でも tanh などのシグモイド関数)、ソフトマックス関数、ガウス関数などが一般的であったが、中間層の活性化関数としては現在は max(x, 0) が最善であるとされている〔。 バックプロパゲーションのアルゴリズムは何度か再発見されており、逆積算モードにおける自動微分という汎用技法の特殊ケースと見ることもできる。 また、ガウス・ニュートン法とも密接に関連する。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「バックプロパゲーション」の詳細全文を読む スポンサード リンク
|