...負の報酬
これはすなわちコストである。

...存在し得る手
空いているマス目の数だけ存在する

...形式で行う
整数値の後に ピリオドをつけた形で入力

Q-learning により学習を行う Tic-Tac-Toe プログラム