強化学習における「Q学習」において、将来得られる報酬の期待値を更新する際に使用される方程式はどれか。

ベルマン方程式は現在の状態の価値を、即時報酬と次状態の最大期待価値の和として定義します。