ReLU関数に適した重みの初期化手法「Heの初期値」の標準偏差はどのように設定されるか(nは前層のノード数)。

ReLUは負側が0になるため、分散を保つにはXavierの初期値(√1/n)の2倍の分散(√2倍の標準偏差)が必要となる。