強化学習において;エージェントが「環境からの報酬」が全くない状態で;「世界を自由に歩き回り、どのような行動をとればどのような状態になるか」の地図だけを先に作る段階を何というか。

後の学習を高速化するために;まず環境の物理法則や構造を把握するプロセス。