分散トレーニングにおいて、`global_batch_size`(全体のバッチサイズ)と `per_device_batch_size`(GPUごとのバッチサイズ)の関係として正しい式はどれか。

分散学習におけるグローバルバッチサイズは、各デバイス(GPU)が処理するミニバッチサイズの総和(デバイス数倍)となるため、学習率のスケーリング(Linear Scaling Rule)などを考慮する必要がある。