強化学習において、エージェントが行動を選択した結果として環境から得る値はどれか。

報酬(Reward)は行動の良し悪しをエージェントに伝えるためのフィードバックである。