強化学習において;エージェントが「目先の報酬」に飛びつかず;「最終的な勝利」のために今の損を受け入れる度合いを調整する値はどれか。

1に近いほど将来を重視し;0に近いほど近視眼的になる。