【シナリオ】分散学習において、バッチサイズを2倍に増やした場合、学習率(Learning Rate)はどう調整するのが一般的か(Linear Scaling Rule)。

一般的に、バッチサイズを大きくすると勾配の推定が安定する反面、更新回数が減るため、学習率をバッチサイズの増加率に比例して大きくする(Linear Scaling Rule)ことで収束を早める手法が取られる。