HOMELv023 活性化関数 GELU (Gaussian Error Linear Unit) が近似的に ReLU や Dropout と関連している理由は何か。 2026年4月3日 確率的に入力を 0 にするか保持するかを考慮した期待値的な動作をする。 Transformerの計算を高速化するために、アテンション行列を完全に計算せずに近似する手法(FlashAttention等)が利用する主なハードウェア特性はどれか。 アンサンブル学習のスタッキングにおいて、各ベースモデルの予測値を入力として最終的な予測を行うモデルを何と呼ぶか。