TransformerのAttention計算において;行列の次元 $d$ の平方根でドット積を割る(スケーリングする)主な理由はどれか。

ドット積の値が大きくなると;Softmax関数の勾配が消失し学習が停滞するのを回避する。