HOMELv066 TransformerのAttention計算において;行列の次元 $d$ の平方根でドット積を割る(スケーリングする)主な理由はどれか。 2026年1月25日 ドット積の値が大きくなると;Softmax関数の勾配が消失し学習が停滞するのを回避する。 LLMのデコーディングにおいて;もっともらしい単語(確率の高い単語)だけでなく;複数の候補を枝分かれさせて探索し;全体の確率が最も高い文を選ぶ手法はどれか。 AIによる動画像解析において;「背景は固定されている」という前提をおき;動いている物体(前景色)だけを抽出する古典的な手法を何というか。