LLMの出力品質を維持したまま、推論時のメモリ消費量を大幅に削減する「KVキャッシュの量子化」において;重要なトークンだけ高い精度を残す手法を何というか。

長い文脈(コンテキスト)を扱う際のハードウェア的な限界を克服する。