HOMELv018 「スパースなデータ」に対して有効とされる最適化アルゴリズムはどれか。 2026年3月13日 AdaGradはパラメータごとに学習率を調整し、更新頻度の低い(スパースな)パラメータに対して大きく更新するため、自然言語処理などで有効。 ニューラルネットワークにおける「ワン・サイクル・ポリシー(One Cycle Policy)」とは何か。 Transformerの「Multi-Head Attention」の利点はどれか。