Q-learning により学習を行う Tic-Tac-Toe プログラム

KLICプログラミングコンテスト自由課題
Q-learning により学習を行う Tic-Tac-Toe プログラム

a. プログラム名: qtickl （Q-learning により学習を行う Tic-Tac-Toe プログラム）
b. 処理の概要: Tic-Tac-Toe （3目並べ）を行うプログラム。ユーザとの対戦や紅白戦を重ねることで Q-learning アルゴリズムに基づく学習を行い、 Tic-Tac-Toe のルールや勝ち方を学習してゆく。
c. 処理に要する時間: 紅白戦 1000 回で、約 15 秒。(計測環境：SS/20, Solaris2.5)
約 2000 回も紅白戦を行わせれば、ほぼ学習は収束する。

Q-learning により学習を行う Tic-Tac-Toe プログラム