TransformerのAttention計算において；行列の次元 $d$ の平方根でドット積を割る（スケーリングする）主な理由はどれか。

2026年1月25日

ドット積の値が大きくなると；Softmax関数の勾配が消失し学習が停滞するのを回避する。

LLMのデコーディングにおいて；もっともらしい単語（確率の高い単語）だけでなく；複数の候補を枝分かれさせて探索し；全体の確率が最も高い文を選ぶ手法はどれか。

AIによる動画像解析において；「背景は固定されている」という前提をおき；動いている物体（前景色）だけを抽出する古典的な手法を何というか。