AIモデルの推論において、演算精度を維持しつつメモリ帯域を節約するために、重みデータを圧縮(スパース化など)して伝送し、演算直前に展開する技術はどれか。

重みを圧縮して転送し、演算直前に展開することでメモリ帯域を節約する