報酬関数を人間が手書きで設計する代わりに;人間の「デモンストレーション(お手本)」から報酬関数を推測して学習する手法はどれか。

「何を目的としているか」をエージェントが自ら見つけ出す手法。