強化学習の基本的なアルゴリズムで、各状態においてどのアクションをとると将来の報酬が最大化されるかを推定するテーブル(Qテーブル)を更新する手法はどれか。

Q学習は、TD誤差(Temporal Difference error)を用いてQ値を逐次的に更新し、最適な方策を獲得する手法。