TransformerのAttention層において;「Softmax」計算の前にスケーリング($\sqrt{d_k}$で割る)を行う理由はどれか。

ドット積の値が大きくなりすぎるとSoftmaxの勾配が極端に小さくなる(飽和する)問題を回避する。