Transformerの計算量を $O(L^2)$ から $O(L)$ に削減する「State Space Models (SSM)」を用いた代表的なモデルはどれか。

Mambaは状態空間モデルをベースに推論の高速化と長文処理を両立したモデルである。