Transformerの「計算量(シーケンス長の2乗)」を解決するため;過去の情報を「状態ベクトル」として維持する次世代アーキテクチャはどれか。

長いシーケンスでも計算量が線形にしか増えず;長文処理に極めて強い構造。