HOMELv083 強化学習において;エージェントが「環境の状態」を遷移確率として完全にモデル化し、そのモデルを用いて頭の中で「想像学習」を行う手法を何というか。 2026年1月25日 実環境での試行錯誤を減らし、シミュレーション内で効率的に学習を進める高度な枠組み。 LLMアプリケーションにおいて;出力された結果が不適切な場合に、自動で「再生成」や「修正指示」を送ることで、システム全体として品質を維持する制御ロジックを何というか。 Transformerの計算量を $O(L^2)$ から $O(L)$ に削減する「State Space Models (SSM)」を用いた代表的なモデルはどれか。