TransformerのAttention層において；「Softmax」計算の前にスケーリングを行う主な理由はどれか。

2026年1月25日

ドット積の値が大きくなるとSoftmaxの勾配が消失し学習が停滞するのを回避する。

強化学習のエージェントが「未知の環境」に適応する際；「過去のタスクで得た経験」を新しいタスクの学習に活かす分野を何というか。

LLMの出力から「学習データに含まれる機密情報」を抽出されるリスクに対し；学習時にノイズを加えて数学的に保護する手法はどれか。