Transformerの計算量において、入力系列の長さ L に対して Self-Attention の計算量はどのオーダーになるか。

各単語が全単語を参照するため、系列長の2乗に比例する計算が必要。