HOMELv019 Transformerの計算量において、入力系列の長さ L に対して Self-Attention の計算量はどのオーダーになるか。 2026年4月3日 各単語が全単語を参照するため、系列長の2乗に比例する計算が必要。 2つの集団の平均に差があるかを検討する際、標本サイズが小さく母分散が未知の場合に用いる検定はどれか。 活性化関数 Swish (x * sigmoid(beta * x)) の特徴として正しいものはどれか。