HOMELv019 Transformerの「Multi-Head Attention」の利点はどれか。 2026年3月13日 複数のヘッドで独立にAttentionを計算することで、「誰が」「どこで」など異なる種類の関連性を同時に学習できる。 「スパースなデータ」に対して有効とされる最適化アルゴリズムはどれか。 画像生成モデル「StyleGAN」の特徴的な構造はどれか。