強化学習において;エージェントが「1つのネットワーク」で;環境の価値と報酬をすべて予測しながら学習する手法はどれか。

環境の具体的なルールを知らなくても;頭の中に世界を構築して学習できる。