重みのL2正則化と重み減衰(Weight Decay)を数学的に厳密に区別し;Adamの更新式に組み込んだ最適化アルゴリズムはどれか。

AdamWはデカップルされた重み減衰を導入し;汎化性能を向上させた。