Transformerの学習において、初期段階で学習率を徐々に上げる「ウォームアップ」を適用しないとどうなりやすいか。

初期の大きな勾配でLayer Normalizationや重みの統計量が壊れるのを防ぐために必須とされる。