強化学習において、エージェントが環境から受け取るフィードバックであり、最大化を目指す値はどれか。

強化学習の目的は、試行錯誤を通じて将来にわたって得られる累積報酬(Reward)を最大化するような行動指針(方策)を学習することである。