Amazon SageMakerで数千億のパラメータを持つ超巨大モデルを分散学習させる際、各GPUのメモリに収まらないモデルを分割して配置する手法はどれか。

モデル並列(SM Model Parallel等)は、モデルの層やパラメータ自体を複数のGPUに分割して保持し、協力して学習を行う。