TransformerにおけるAttentionの計算量を削減するため;全ての単語ペアではなく一部のペアのみを見る手法はどれか。

計算コストを線形に抑えるための工夫であり;長い文章の処理を可能にする。