強化学習において;エージェントが過去の成功体験に固執せず;常に新しい状態を探索するように促すパラメータを何というか。

「探索と利用のトレードオフ」を調整するための重要な設定。