LLMの推論において;「Aという単語が出たら次はBが出やすい」という中間計算結果(キャッシュ)を使い回す技術を何というか。

デコーディング時の重複計算を排除し;推論速度を劇的に高める。