強化学習(Reinforcement Learning)において、エージェントが行動を選択する指針となる、環境から得られるフィードバック値を何と呼ぶか。

エージェントが行動した結果として環境から得られる評価値(プラスまたはマイナス)