LLMの推論において;Attentionの計算を時間軸方向に分割して並列化し;デコード速度を高速化するアルゴリズムはどれか。

長いコンテキストを持つモデルの推論を大幅にスピードアップさせる技術。