HOMELv021 重みの初期化手法である「Heの初期値」において、分散を算出する際に用いられる係数はどれか。 2026年4月3日 ReLUでの信号減衰を考慮し、Xavier(1/n)の2倍の分散を与える。 Transformerの「Multi-head Attention」を用いる主な理由はどれか。 不均衡データ対策の「SMOTE」とはどのような手法か。