強化学習のQ学習において、推定値が過大評価される問題を解決するために2つのQ関数を用いる手法はどれか。

2026年5月15日

行動選択と価値評価に異なるQ関数を用いることで、過大評価を抑制します。

カーネル主成分分析において、元の空間では非線形な構造を捉えるために利用する行列を何というか。

欠測値処理において、欠測が観測された他の変数に依存して発生しているが、欠測値自体には依存しない状態を何というか。