Transformerの「アテンション計算量(シーケンス長の2乗)」を解決するため;過去の情報を「状態ベクトル」として一定サイズで維持する、RNNとCNNを融合させたようなアーキテクチャを何というか。

長いシーケンスでも計算量が線形にしか増えず、長文処理に極めて強い次世代構造。