大規模モデルの学習において;「パラメータ」「勾配」「最適化状態」のメモリを複数のGPUに分散・削減する技術(ZeROなど)を何というか。

重複するデータを排除し、1台のGPUでは乗らない巨大モデルの学習を可能にする。