将来得られる報酬を現在価値に換算するためのパラメータであり0から1の間の値をとりエージェントの近視眼性を制御するものはどれか。

強化学習において遠い未来の報酬ほど割り引いて評価することで学習の収束性を高め目標設定を明確にする。