強化学習において；エージェントが「環境の状態」を遷移確率として完全にモデル化し；頭の中で「シミュレーション学習」を行う手法はどれか。

2026年1月25日

実環境での試行錯誤を減らし；シミュレーション内で効率的に学習を進める枠組み。

LLMアプリケーションにおいて；出力された結果が不適切な場合に；自動で「再生成」や「修正指示」を送ることで品質を維持する制御を何というか。

ブックの計算方法を自動から手動に変更するためのパスはどれか。