強化学習において;エージェントが「未知の環境」を探索する際;報酬が全く得られない場所でも「次に何が起きるかの予測しにくさ」を指標に動く仕組みを何というか。

予測エラーが大きい場所を重点的に探索することで;効率的に情報を収集する。