LLMのコンテキスト長を拡張する際;データの先頭部分のみを重要視するアテンションの性質を利用した手法はどれか。

「最初の数トークン」がアテンションの受け皿(Sink)として機能することを発見し;省メモリで無限長の推論を目指す。