
Next: B 主なモジュールと述語の説明
Up: A 背景
Previous: A.1 Q-learning
今回は、Q-learning のパラメータ値を以下のように定めた。
Q-function の初期値および報酬を大きくとっているのは、
浮動小数点計算を避けることで処理を高速にするためである。
- 割引率
-
= 95% (0.95)
- 学習率
-
(但し Step は、初手からの手数)
- Q-function 初期値
-
- 報酬値
-
100000, 0, -100000
Q-learning により学習を行う Tic-Tac-Toe プログラム