LLMの学習において;「回答の良さ」を直接最適化するのではなく、人間の好みの「順位(Preference)」から報酬を推定するプロセスの名称はどれか。

RLHFにおける重要なステップで、人間の「感覚」を数値化してモデルに伝える。