HOMELv013 勾配降下法において、過去の勾配の2乗和を用いて学習率を個別に調整する手法はどれか。 2026年4月3日 AdaGradはパラメータごとに学習率を適応的に変化させる。 Transformerにおいて、同一系列内の単語間の関係を計算するAttentionはどれか。 正則化項を含む損失関数の最小化において、L1正則化が重みを0にしやすくする性質を何と呼ぶか。