人間にとって好ましい回答をするように;人間のフィードバックを用いてLLMを最適化する手法はどれか。

Reinforcement Learning from Human Feedbackの略。