Self-Attentionメカニズムの計算量は、入力シーケンス長 $N$ に対してどのように増加するか。

Attentionは全てのトークン(画素)同士の相互関係を計算するため、行列積の計算量がシーケンス長の二乗($N^2$)に比例し、高解像度画像への適用でボトルネックとなる。