強化学習について

Words near each other

・強化プラスチック成形技能士
・強化ワイン
・強化人間
・強化刺激
・強化剤
・強化原爆
・強化合宿
・強化型ΖΖガンダム
・強化培養
・強化外骨格
・ 強化学習
・強化服
・強化木材
・強化現実
・強化療法
・強化的選択
・強化磁器
・強化米
・強化記事
・強化説

Dictionary Lists

mini英和辞書

翻訳と辞書　辞書検索 [ 開発暫定版 ]

スポンサードリンク

強化学習：ウィキペディア日本語版

強化学習[きょうかがくしゅう]
強化学習(きょうかがくしゅう, ''Reinforcement Learning'')とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。代表的な手法としてTD学習やQ学習が知られている。
最も基本的なモデルでは、ここでの環境は、有限状態数のマルコフ決定過程として定式化される。また、強化学習のアルゴリズムは動的計画法に類似したアルゴリズムである。
強化学習は、学習のための適切な入力データと出力データのペアが与えられることがない、という意味からすると、教師あり学習とは異なる学習手法である。また、未知の学習領域を開拓していく行動と、既知の学習領域を利用していく行動とをバランス良く選択することができるという特徴も持っている。その性質から未知の環境下でのロボットの行動獲得に良く用いられる。
== マルコフ決定過程 ==
マルコフ決定過程 (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。
* 環境は状態を持ち、それは完全に正確に観測可能。
* エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していく。
* 報酬の指数移動平均を最大化するように行動する。
環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) という。

抄文引用元・出典: フリー百科事典『ウィキペディア（Wikipedia）』
■ウィキペディアで「強化学習」の詳細全文を読む

スポンサードリンク

翻訳と辞書 : 翻訳のためのインターネットリソース