next up previous
Next: B 主なモジュールと述語の説明 Up: A 背景 Previous: A.1 Q-learning

A.2 今回用いたパラメータ

今回は、Q-learning のパラメータ値を以下のように定めた。 Q-function の初期値および報酬を大きくとっているのは、 浮動小数点計算を避けることで処理を高速にするためである。

割引率
= 95% (0.95)
学習率
(但し Step は、初手からの手数)
Q-function 初期値
報酬値
100000, 0, -100000



[i18n checked]

Q-learning により学習を行う Tic-Tac-Toe プログラム