強化学習において;エージェントが「1つのニューラルネットワーク」で、環境の「価値」と「次の状態」と「報酬」をすべて予測しながら学習する手法はどれか。

環境の具体的なルールを知らなくても、頭の中で「世界」を構築して学習する。