強化学習において;エージェントが「環境の状態」を遷移確率としてモデル化し;そのモデルを用いてシミュレーションを行う手法はどれか。

実環境での試行回数を劇的に減らせる可能性がある。