AIモデルをデバイス上で直接動作させる際、推論速度の向上と省メモリ化のために数値精度を落とす(例:32bitから8bitへ)手法はどれか。

パラメータの数値を低いビット精度で表現することで、計算負荷を軽減する手法を量子化と呼ぶ。