RLHF(Reinforcement Learning from Human Feedback)において、報酬モデル(Reward Model)は何を学習するか。

同じプロンプトに対する複数の回答ペアについて、人間がどちらが良いかを判定したデータを用い、その選好をスコア化するように学習する。