HOMELv023 Transformerの計算を高速化するために、アテンション行列を完全に計算せずに近似する手法(FlashAttention等)が利用する主なハードウェア特性はどれか。 2026年4月3日 メモリ読み書きを最小限に抑え、オンチップメモリで計算を完結させる。 確率変数 X_1, X_2, …, X_n が互いに独立に平均 μ、分散 σ^2 の分布に従うとき、標本平均の分散はどうなるか。 活性化関数 GELU (Gaussian Error Linear Unit) が近似的に ReLU や Dropout と関連している理由は何か。