エキスパート(人間など)の行動ログから;その背後にある「報酬関数」を推定して学習する手法はどれか。

報酬設計が困難なタスクにおいて有効なアプローチ。