TransformerにおけるAttentionの計算量を削減するため；全ての単語ペアではなく一部のペアのみを見る手法はどれか。

2026年1月25日

計算コストを線形に抑えるための工夫であり；長い文章の処理を可能にする。

強化学習において；過去の経験（状態；行動；報酬；次状態）をメモリに保存し；ランダムにサンプリングして学習に使う手法を何というか。

モデルの精度を維持したまま；重み行列を小さな行列の積に分解して計算量を削減する手法を何というか。