強化学習における「World Models」のアプローチの特徴はどれか。

2026年3月13日

環境のダイナミクスを学習したモデル（世界モデル）内でエージェントを訓練することで、実環境での試行回数を減らし安全に学習できる。

「Neural Tangent Kernel (NTK)」理論が扱うニューラルネットワークの設定はどれか。

RLHF（Reinforcement Learning from Human Feedback）において、報酬モデル（Reward Model）は何を学習するか。