Vertex AIで大規模なTransformerモデルを学習する際、メモリ不足を回避するためにモデルを複数のデバイスに分割して配置する手法はどれか。

1つのGPUに収まらない巨大なモデルは、層ごとに異なるGPUへ分割して配置する必要があります。