LLMの学習において;人間の好みのデータから直接「報酬関数を介さずに」モデルを最適化する手法はどれか。

RLHFに比べて計算が安定しやすく;近年のLLM学習の主流になりつつある。