HOMELv043 「ウォームアップ(Warmup)」と呼ばれる学習率スケジュールの目的はどれか。 2026年3月13日 Adamなどの適応的学習率手法でも、初期段階での急激な更新が性能悪化を招くことがあるため、徐々に学習率を上げる手法が有効。 逆伝播時、Average Pooling層は勾配をどのように伝播させるか。 「Group Normalization」がBatch Normalizationより有利になる状況はどれか。