HOMELv023 ReLU関数に適した重みの初期化手法「Heの初期値」の標準偏差はどのように設定されるか(nは前層のノード数)。 2026年3月13日 ReLUは負側が0になるため、分散を保つにはXavierの初期値(√1/n)の2倍の分散(√2倍の標準偏差)が必要となる。 最適化手法において「モーメンタム」が模倣する物理現象はどれか。 高次元の非凸最適化問題において、極小値ではないが勾配が0になる点を何と呼ぶか。