next up previous
Next: B 主なモジュールと述語の説明 Up: A 背景 Previous: A.1 Q-learning

A.2 今回用いたパラメータ

今回は、Q-learning のパラメータ値を以下のように定めた。 Q-function の初期値および報酬を大きくとっているのは、 浮動小数点計算を避けることで処理を高速にするためである。

割引率
gamma = 95% (0.95)
学習率
alpha (但し Step は、初手からの手数)
Q-function 初期値
Q(i_0, u_0) = 10000
報酬値
10000, 0, -10000



Q-learning により学習を行う Tic-Tac-Toe プログラム