TransformerのAttention計算において;行列の全ての要素を計算する代わりに;カーネル法を用いて近似的に高速化する手法はどれか。

入力長の2乗に比例する計算量を;線形(1乗)に抑える試み。