Transformerの各層で実行される「層正規化（Layer Norm）」において；平均値を引かずに分散（RMS）のみで正規化し計算を効率化する手法はどれか。

2026年1月25日

Llama 2/3などで採用されており；精度を保ちつつ計算コストを削減する。

強化学習において；「実環境での試行錯誤」のコストが高すぎる場合に；過去のログデータのみから学習する手法を何というか。

LLMの推論において；「小さなドラフトモデル」で仮の回答を作り；「大きなモデル」で一括検証することで高速化する技術を何というか。