TransformerのAttention層において；「Softmax」計算の前にスケーリング（$\sqrt{d_k}$で割る）を行う理由はどれか。

2026年1月25日

ドット積の値が大きくなりすぎるとSoftmaxの勾配が極端に小さくなる（飽和する）問題を回避する。

生成AIの導入によって「プログラミング」や「ライティング」のコストが劇的に下がることで生じる経済的な変化を何と呼ぶか。

LLMに「逆の立場の意見」を生成させたり；「自分の回答の誤り」を指摘させたりすることで論理性を高める手法を何というか。