LLMの学習において；人間の好みのデータから直接「報酬関数を介さずに」モデルを最適化する手法はどれか。

2026年1月25日

RLHFに比べて計算が安定しやすく；近年のLLM学習の主流になりつつある。

報酬を最大化するだけでなく；解の「多様性」と「質の高さ」を同時に追求し；広範な行動レパートリーを獲得するアルゴリズムの総称はどれか。

LLMの推論において；Attentionの計算を時間軸方向に分割して並列化し；デコード速度を高速化するアルゴリズムはどれか。