A.1 Q-learning

Next: A.2 今回用いたパラメータ Up: A 背景 Previous: A 背景

A.1 Q-learning

バックプロパゲーションに代表されるようなニューラルネットの教師付き学習 (supervised learning) は、ネットワークの目標とすべき出力パターンが与えられることを前提としている。これに対し、出力の目標パターンは与えられず、出力の良し悪しを示すスカラ値のみが与えられる場合に、それを最大化する出力を学習する枠組みは強化学習 (reinforcement learning) [2] とよばれる。

そのスカラ値 (報酬：reward) が一連の出力系列と環境の結果として、未知の遅れの後に与えられる場合、結果が得られるまでに行った様々な出力や通過した状態のうち、どれがその結果に影響を与えたのかを推定する必要がある。考えられる方法は、各状態に対する評価を経験を基に学習しておき、各時点で次の状態での評価が最大になるような出力を選ぶというものである。

状態 i_t , 出力 u_t における報酬を r_t = r(i_t, u_t) とすると、状態における評価値 (value function) V(i) は、