強化学習において;エージェントが「環境からの報酬」がなくても;「新奇な状態」を探すこと自体を目的とする学習の総称はどれか。

スパースな報酬環境でも自律的に探索を継続させるための仕組み。