強化学習において;エージェントが「環境のルール」を直接知らないまま試行錯誤する「モデルフリー」に対し、ルールを予測しながら動く手法はどれか。

環境の遷移モデルを学習し、頭の中でシミュレーション(計画)してから行動する。