HOMELv021 Transformerの「Multi-head Attention」を用いる主な理由はどれか。 2026年4月3日 アテンションを並列化することで、多様な関係性を同時に学習できる。 確率変数 X が自由度 ν の χ^2 分布に従うとき、その期待値 E[X] はいくらか。 重みの初期化手法である「Heの初期値」において、分散を算出する際に用いられる係数はどれか。