Transformerの計算を高速化するために、アテンション行列を完全に計算せずに近似する手法（FlashAttention等）が利用する主なハードウェア特性はどれか。

2026年4月3日

メモリ読み書きを最小限に抑え、オンチップメモリで計算を完結させる。

確率変数 X_1, X_2, …, X_n が互いに独立に平均 μ、分散 σ^2 の分布に従うとき、標本平均の分散はどうなるか。

活性化関数 GELU (Gaussian Error Linear Unit) が近似的に ReLU や Dropout と関連している理由は何か。