HOMELv025 重みの初期化において、ReLU関数を使用する場合に推奨される初期化手法はどれか。 2026年3月12日 He初期化はReLUの特性に合わせて分散を調整し、勾配消失を防ぐ。 Attention機構の中でも、Query、Key、Valueの全てが同じ入力から生成されるものを何と呼ぶか。 BERTにおいて、文の先頭に配置され、文全体の分類タスクなどに使用される特殊なトークンはどれか。