Next: A 背景
Up: 3 プログラムの使い方
Previous: 3.1 知識データのロード
データのロード確認が終わると、プログラムはメニューを表示する。
メニューは以下のような構成になっている。
- 1. : training mode
-
プログラムが紅白戦を行うことで学習(Q値の更新)を行う。
このメニューを選択するとトレーニング回数(何試合紅白戦を行うか)
の入力をユーザに促す。
この入力は Prolog 形式で行う
。
- 2. : game mode
-
プログラムとユーザが 1 試合対戦する。先攻後攻は
ランダムに決定される。
ユーザの入力(手の選択)は、``a2.'' といったように
「縦座標」「横座標」「終端を示すピリオド」の形で行う。
- 3. : show the Q-function
-
現在の Q-function の値(Q値)を表示する。
- 4. : quit
-
プログラムを終了する。このメニューを選択すると、
現在のQ値をファイル ``q.kl1'' としてセーブするかどうか
ユーザに確認を行う。
4 以外は、各処理が終了すると
再びメニュー選択に戻るようになっている。
Q-learning により学習を行う Tic-Tac-Toe プログラム