強化学習において;エージェントが「未知の環境」を探索する際;自身の「世界モデル」が予測に失敗した度合いを報酬として与える手法はどれか。

予測誤差を「好奇心」として定義し;未知の領域への探索を促す。