強化学習において;エージェントが「将来の報酬の期待値」を計算する際;「今すぐもらえる100円」と「1年後の100円」を区別するために使われる係数はどれか。

通常0から1の値をとり;将来の報酬の現在価値を算出するのに使われる。