LLMの学習において;人間の好みを反映させるために;2つの回答のうちどちらが良いかを選択するペアデータを用いる手法はどれか。

報酬モデルを介さずに直接方策を最適化する。