LLMのコンテキスト長を「数百万トークン」に拡張するために;アテンションの計算を「通信(リング状の転送)」によって分散化する技術を何というか。

GPU間のメモリ通信を工夫し、1台のメモリ制限を超えた超長文の入力を可能にする。