HOMELv040 TransformerのAttention層において;「Softmax」計算の前にスケーリング($\sqrt{d_k}$で割る)を行う理由はどれか。 2026年1月25日 ドット積の値が大きくなりすぎるとSoftmaxの勾配が極端に小さくなる(飽和する)問題を回避する。 生成AIの導入によって「プログラミング」や「ライティング」のコストが劇的に下がることで生じる経済的な変化を何と呼ぶか。 LLMに「逆の立場の意見」を生成させたり;「自分の回答の誤り」を指摘させたりすることで論理性を高める手法を何というか。