B.4 learn モジュール

Next: B.5 game モジュール Up: B 主なモジュールと述語の説明 Previous: B.3 decide モジュール

reward +Board, -Reward, +OX: OX を受け持つプレイヤの局面 Board における報酬値を Reward に同一化する。
win +Board, -Judge, +OX: OX を受け持つプレイヤの局面 Board における勝利判定を行う。
update_q +RedQ, +ActFun, +Action, +Blank, +Reward, +NowState, +Step, -NewQ: ひとつ過去の状態に選択された手 Action、その結果遷移した状態 NowState とその時の報酬値 Reward から、 Q値 Q を更新し、新たな Q値を NewQ に同一化する。

Q-learning により学習を行う Tic-Tac-Toe プログラム