Transformerの学習において、初期段階で学習率を徐々に上げる「ウォームアップ」を適用しないとどうなりやすいか。

2026年4月3日

初期の大きな勾配でLayer Normalizationや重みの統計量が壊れるのを防ぐために必須とされる。

ベイズ統計において、事前分布と尤度から得られる事後分布が、事前分布と同じ種類の分布になる組み合わせを何と呼ぶか。

モデルの重みの L2 ノルムを損失に加える手法において、重み更新式で重みを直接減衰させる項が現れることから何と呼ばれるか。