LLMの学習において;人間のフィードバックデータから直接「最適な回答確率」を導き出し;報酬モデルを不要にした手法はどれか。

計算が安定しやすく;ChatGPTなどの後続モデルの学習に広く採用された。