人間がフィードバックを与えて、生成AIの回答を好ましい方向に調整する手法はどれか。

人間の評価を報酬として強化学習を行い、AIの振る舞いを人間に最適化する。