強化学習において、エージェントが望ましい行動をとった時に環境から与えられる評価値を何と呼ぶか。

エージェントは累積報酬が最大化されるような行動方針(方策)を学習することで、最適な行動を獲得していく。