LLMの性能を維持したまま、推論時の「行列演算の回数」を劇的に減らすために;特定の要素(重みや活性化値)が0に近い場所を計算から除外する技術はどれか。

計算リソースを賢く使い分け;推論のスピードを飛躍的に高める。