A.2 今回用いたパラメータ

Next: B 主なモジュールと述語の説明 Up: A 背景 Previous: A.1 Q-learning

今回は、Q-learning のパラメータ値を以下のように定めた。 Q-function の初期値および報酬を大きくとっているのは、浮動小数点計算を避けることで処理を高速にするためである。

Q-learning により学習を行う Tic-Tac-Toe プログラム