HOMELv088 TransformerのAttention層において;「Softmax」計算の前にスケーリングを行う主な理由はどれか。 2026年1月25日 ドット積の値が大きくなるとSoftmaxの勾配が消失し学習が停滞するのを回避する。 強化学習のエージェントが「未知の環境」に適応する際;「過去のタスクで得た経験」を新しいタスクの学習に活かす分野を何というか。 LLMの出力から「学習データに含まれる機密情報」を抽出されるリスクに対し;学習時にノイズを加えて数学的に保護する手法はどれか。