強化学習において;エージェントが「過去のデータ」から学ぶだけでなく、「シミュレータ内の想像(夢)」で学習を進めるアーキテクチャはどれか。

世界モデルを学習し;その中で思考実験を行うことで実環境での試行を減らす。