強化学習において;「実環境での試行錯誤」のコストが高すぎる場合に;過去のログデータのみから学習する手法を何というか。

追加のデータ収集を行わず;既存のデータベースから最適な方策を導き出す。