HOMELv019 活性化関数 Swish (x * sigmoid(beta * x)) の特徴として正しいものはどれか。 2026年4月3日 Googleによって提案された関数で、ReLUより滑らかで性能が良いとされる。 Transformerの計算量において、入力系列の長さ L に対して Self-Attention の計算量はどのオーダーになるか。 k-means法などの初期値依存性を解消するために、初期の重心を離れた位置に配置する改良手法はどれか。