Next: 2 仕様 Up: Q-learning により学習を行う Tic-Tac-Toe プログラム Previous: Q-learning により学習を行う Tic-Tac-Toe プログラム

1 概要

Tic-Tac-Toe (3目並べ) を行うプログラムを作成した。このプログラムは Q-learning [1]アルゴリズムによって学習を行う。自ら両プレイヤを受け持つことによって紅白戦による学習を行うことができ、また人間との対戦も行える。人間との対戦や紅白戦を重ねることで Tic-Tac-Toe の知識を更新し、ルールおよび勝ち方を学習してゆく。

プログラムが最初持っている知識は、

二人のプレーヤが交互に指す。

ということだけであり、最初は勝ち負けのルールすら知らないものとする。但し状態数の増加を抑えるため、対称な局面の同値判定だけはできるものとした。プログラムは 1 ゲーム終了時に、その結果に応じた報酬が与えられ、それによってTic-Tac-Toe の勝ち負けのルール（どういう場合に高い報酬がもらえるかという情報）や良い手（高い報酬がもらえる状態に近づく手）を学習して行く。

詳しい仕様については、第2章で述べる。

Q-learning により学習を行う Tic-Tac-Toe プログラム