「RLHF」における報酬モデル(Reward Model)は、どのように学習されるか。

人間による好みの比較結果を学習し、どのような回答が「良い」かを数値化できるようになる。