TransformerのAttention層において;「Softmax」計算の前にスケーリングを行う主な理由はどれか。

ドット積の値が大きくなるとSoftmaxの勾配が消失し学習が停滞するのを回避する。