LLMの「マルチヘッドアテンション(Multi-Head Attention)」のメリットはどれか。

複数の「ヘッド」を持つことで、文法、意味、時系列など多様な側面を同時に注目できる。