LLMの性能を高める「アライメント」において;人間の評価データから直接、モデルの出力確率を調整する「報酬モデル不要」の手法はどれか。

計算が安定し、ChatGPTなどの後続モデルの学習効率を劇的に高めた技術。