分散トレーニングにおいて、`global_batch_size`（全体のバッチサイズ）と `per_device_batch_size`（GPUごとのバッチサイズ）の関係として正しい式はどれか。

2026年3月8日

分散学習におけるグローバルバッチサイズは、各デバイス（GPU）が処理するミニバッチサイズの総和（デバイス数倍）となるため、学習率のスケーリング（Linear Scaling Rule）などを考慮する必要がある。