next up previous
Next: A 背景 Up: 3 プログラムの使い方 Previous: 3.1 知識データのロード

3.2 メニュー

データのロード確認が終わると、プログラムはメニューを表示する。 メニューは以下のような構成になっている。

1. : training mode
プログラムが紅白戦を行うことで学習(Q値の更新)を行う。 このメニューを選択するとトレーニング回数(何試合紅白戦を行うか) の入力をユーザに促す。 この入力は Prolog 形式で行うgif
2. : game mode
プログラムとユーザが 1 試合対戦する。先攻後攻は ランダムに決定される。 ユーザの入力(手の選択)は、``a2.'' といったように 「縦座標」「横座標」「終端を示すピリオド」の形で行う。
3. : show the Q-function
現在の Q-function の値(Q値)を表示する。
4. : quit
プログラムを終了する。このメニューを選択すると、 現在のQ値をファイル ``q.kl1'' としてセーブするかどうか ユーザに確認を行う。

4 以外は、各処理が終了すると 再びメニュー選択に戻るようになっている。



Q-learning により学習を行う Tic-Tac-Toe プログラム