Self-Attentionメカニズムの計算量は、入力シーケンス長 $N$ に対してどのように増加するか。

2026年1月25日

Attentionは全てのトークン（画素）同士の相互関係を計算するため、行列積の計算量がシーケンス長の二乗（$N^2$）に比例し、高解像度画像への適用でボトルネックとなる。