HOMELv045 強化学習における「World Models」のアプローチの特徴はどれか。 2026年3月13日 環境のダイナミクスを学習したモデル(世界モデル)内でエージェントを訓練することで、実環境での試行回数を減らし安全に学習できる。 「Neural Tangent Kernel (NTK)」理論が扱うニューラルネットワークの設定はどれか。 RLHF(Reinforcement Learning from Human Feedback)において、報酬モデル(Reward Model)は何を学習するか。