強化学習において;エージェントが「目先の報酬」に飛びつかず、「最終的な勝利」のために今の損を受け入れる度合いを調整する値はどれか。

1に近いほど将来の報酬を重視し、0に近いほど近視眼的になる。