HOMELv020 「決定論的方策勾配法(DPG)」と通常の確率的方策勾配法の違いはどれか。 2026年3月13日 DPGは方策関数が決定論的(同じ入力なら必ず同じ出力)であり、高次元・連続行動空間において効率的に勾配を計算できる利点がある。 「ニューラルODE(Neural Ordinary Differential Equations)」の革新的な点はどれか。 最近の大規模言語モデル(LLM)で注目される「Chain-of-Thought (CoT)」プロンプティングの効果はどれか。