HOMELv011 深層強化学習において、価値関数と方策関数を同時に学習させる枠組みを何と呼ぶか。 2026年5月15日 行動を決定するActorと、その行動を評価するCriticを組み合わせた手法です。 トピックモデルのLDAにおいて、各文書のトピック分布や各トピックの単語分布に仮定される分布はどれか。 尤度比検定において、サンプルサイズが十分に大きいとき、検定統計量は近似的にどの分布に従うか。