LLMのコンテキスト窓を効率的に拡張するための技術で;アテンションの計算をブロック単位に分割し;オンラインでソフトマックスを計算する手法はどれか。

IO効率を最適化し;メモリ消費を抑えつつ長文処理を高速化する。