強化学習において;エージェントが「現実世界で失敗する」のを防ぐため、まず「オフラインの固定データ」だけで学習させる手法を何というか。

追加の試行錯誤を行わず、既存のログデータから最適な方策を見つけ出す。