強化学習において;エージェントが「環境からの報酬」が全く得られない間も、「世界がどう変化するか」という予測誤差を「驚き」として報酬にする手法はどれか。

スパースな報酬環境でも、エージェントが自律的に学習を継続できるようにする。