報酬が一切得られない間も;「環境の変化」自体を報酬と感じて探索を行う仕組みはどれか。

スパースな報酬環境での学習を助ける仕組み。