HOMELv045 LLMの学習において;人間の好みのデータから直接「報酬関数を介さずに」モデルを最適化する手法はどれか。 2026年1月25日 RLHFに比べて計算が安定しやすく;近年のLLM学習の主流になりつつある。 報酬を最大化するだけでなく;解の「多様性」と「質の高さ」を同時に追求し;広範な行動レパートリーを獲得するアルゴリズムの総称はどれか。 LLMの推論において;Attentionの計算を時間軸方向に分割して並列化し;デコード速度を高速化するアルゴリズムはどれか。