HOMELv024 LLMのコンテキストウィンドウを拡大するために、長い系列に対してアテンションをスライドさせる手法はどれか。 2026年4月3日 特定の範囲内のみアテンションを計算することで、計算量を系列長に対して線形に保つ。 χ^2 検定(カイ二乗検定)において、主に検定対象となるのはどれか。 活性化関数を適用する前にバッチ正規化を配置する場合と、後に配置する場合の議論において、原論文(v1)が推奨した位置はどちらか。