報酬が一切得られない状態でも;エージェントが「環境についての知識」を増やすこと自体を目的として学習する手法を何というか。

外部からの報酬設計が不要な;自律的な学習プロセスの研究。