LLMの性能を高める「アライメント」において；人間の評価データから直接、モデルの出力確率を調整する「報酬モデル不要」の手法はどれか。

2026年1月25日

計算が安定し、ChatGPTなどの後続モデルの学習効率を劇的に高めた技術。

ニューラルネットワークが学習データ（サンプル数 $n$）よりも圧倒的に多いパラメータ（数 $p$）を持つ際、なぜ過学習せずに精度が上がるのかを説明する仮説はどれか。

画像生成における「拡散モデル」の性能を飛躍させた；「画像を低次元の潜在空間に圧縮してから拡散を行う」アーキテクチャはどれか。