大規模言語モデル(LLM)の学習において人間の評価を反映させる手法はどれか。

RLHF(人間のフィードバックによる強化学習)はAIの回答を人間の好みに合わせるための調整手法である。