強化学習において;エージェントが「環境からの報酬」が全くない状態で;「世界がどう変化するか」の地図だけを先に作る段階を何というか。

後の学習を高速化するために;環境の物理法則や構造をまず把握する。