エージェントが「環境そのもの」をシミュレートする内部モデルを持ち;その中で想像(思考)して学習する手法を何というか。

実環境での試行錯誤を減らし;効率的な学習が可能になる。