強化学習において;エージェントが「環境の状態」を遷移確率として完全にモデル化し;頭の中で「シミュレーション学習」を行う手法はどれか。

実環境での試行錯誤を減らし;シミュレーション内で効率的に学習を進める枠組み。