大規模モデルの学習において、モデルがGPUメモリに収まらない場合の分散学習手法はどれか。

モデルの層やコンポーネントを複数のGPUに分割して配置・計算する手法で、巨大なパラメータを持つモデルの学習に必須となる。