HOMELv027 将来得られる報酬を現在価値に換算するためのパラメータであり0から1の間の値をとりエージェントの近視眼性を制御するものはどれか。 2026年3月27日 強化学習において遠い未来の報酬ほど割り引いて評価することで学習の収束性を高め目標設定を明確にする。 数理計算上の差異や過去勤務費用が発生した事業年度においてその全額を一度に費用または収益として計上する方式はどれか。 確率微分方程式のシミュレーションにおいてドリフト項と拡散項を離散化して経路を生成する最も基本的な一次近似手法はどれか。