3.2 メニュー

Next: A 背景 Up: 3 プログラムの使い方 Previous: 3.1 知識データのロード

データのロード確認が終わると、プログラムはメニューを表示する。メニューは以下のような構成になっている。

1. : training mode: プログラムが紅白戦を行うことで学習（Q値の更新）を行う。このメニューを選択するとトレーニング回数（何試合紅白戦を行うか）の入力をユーザに促す。この入力は Prolog 形式で行う。
2. : game mode: プログラムとユーザが 1 試合対戦する。先攻後攻はランダムに決定される。ユーザの入力（手の選択）は、``a2.'' といったように「縦座標」「横座標」「終端を示すピリオド」の形で行う。
3. : show the Q-function: 現在の Q-function の値（Q値）を表示する。
4. : quit: プログラムを終了する。このメニューを選択すると、現在のQ値をファイル ``q.kl1'' としてセーブするかどうかユーザに確認を行う。

4 以外は、各処理が終了すると再びメニュー選択に戻るようになっている。

Q-learning により学習を行う Tic-Tac-Toe プログラム