強化学習の「Q学習」において;学習が進むにつれて行動の価値(Q値)を更新する式を何と呼ぶか。

現在の報酬と将来の期待値を結びつける強化学習の基本式。