TransformerのAttention機構における「Scaled Dot-Product」のスケール調整に用いる値はどれか。

次元数dの平方根で割ることで、内積の値が大きくなりすぎて勾配が小さくなるのを防ぐ。