...負の報酬
これはすなわちコストである。
...存在し得る手
空いているマス目の数だけ存在する
...形式で行う
整数値の後に ピリオドをつけた形で入力
Q-learning により学習を行う Tic-Tac-Toe プログラム