HOMELv009 TransformerのAttention機構における「Scaled Dot-Product」のスケール調整に用いる値はどれか。 2026年3月12日 次元数dの平方根で割ることで、内積の値が大きくなりすぎて勾配が小さくなるのを防ぐ。 U-Netにおいて、低解像度から高解像度へ戻す際に情報を補完する経路はどれか。 モデルの予測結果が特定の結果になった理由を局所的に説明する手法はどれか。