LLMの推論において;「Aという単語の次はBが来やすい」というKVキャッシュの一部を、複数の推論リクエスト間で共有してメモリを節約する技術はどれか。

KeyとValueを全ヘッドで共有することで、メモリ帯域のボトルネックを解消する。