強化学習において、人間のフィードバックを用いてモデルを最適化する手法はどれか。

Reinforcement Learning from Human Feedback(人間からのフィードバックによる強化学習)。