KLICプログラミングコンテスト自由課題
QTicKL
( Q-learning により学習を行う Tic-Tac-Toe プログラム )
- a. プログラム名
-
QTicKL ::
Q-learning
Tic-Tac-Toe in KL1
(Q-learning により学習を行う Tic-Tac-Toe プログラム)
- b. 処理の概要
-
Tic-Tac-Toe (3目並べ)を行うプログラム。ユーザとの対戦や
紅白戦を重ねることで Q-learning アルゴリズムに基づく学習を行い、
Tic-Tac-Toe のルールや勝ち方を学習してゆく。
- c. 処理に要する時間
-
紅白戦 1000 回で、約 15 秒。(計測環境:SS/20, Solaris2.5)
約 2000 回も紅白戦を行わせれば、ほぼ学習は収束する。
説明書
Q-learning により学習を行う Tic-Tac-Toe プログラム