TransformerのAttention計算量はシーケンス長の( )に比例して増大するため;超長文の処理には工夫が必要である。

これが長文処理における最大のボトルネックとなっている。