強化学習において;エージェントが「環境の状態」を遷移確率として完全にモデル化し、そのモデルを用いて頭の中で「想像学習」を行う手法を何というか。

実環境での試行錯誤を減らし、シミュレーション内で効率的に学習を進める高度な枠組み。