強化学習において、現在の状態から得られる将来の報酬の期待値を表す関数はどれか。

ある状態で特定の行動をとった際、将来的にどれだけの利益が得られるかを評価する。