強化学習において、エージェントが行動を選択した結果として環境から得られる値を何というか。

エージェントは累積される報酬を最大化するように学習を進める。