強化学習において、現在の行動が将来の報酬に与える影響を考慮するための係数を何というか。

2026年5月15日

将来得られる報酬を現在の価値に換算するためのパラメータです。

リッジ回帰において、ペナルティ項を制御するパラメータλを大きくすると、係数の値はどうなるか。

モンテカルロ法のうち、マルコフ連鎖を用いて事後分布からサンプリングを行う手法の総称はどれか。