Next: B.5 game モジュール
Up: B 主なモジュールと述語の説明
Previous: B.3 decide モジュール
- reward +Board, -Reward, +OX
-
OX を受け持つプレイヤの局面 Board における報酬値を
Reward に同一化する。
- win +Board, -Judge, +OX
-
OX を受け持つプレイヤの局面 Board における勝利判定を行う。
- update_q
+RedQ, +ActFun, +Action, +Blank, +Reward, +NowState, +Step, -NewQ
-
ひとつ過去の状態に選択された手 Action、
その結果遷移した状態 NowState とその時の報酬値 Reward から、
Q値 Q を更新し、新たな Q値を NewQ に同一化する。
Q-learning により学習を行う Tic-Tac-Toe プログラム