強化学習のエージェントが「環境の状態」を遷移確率としてモデル化し;それを用いてシミュレーションを行う手法はどれか。

実環境での試行回数を劇的に減らせる可能性がある。