TransformerのAttention機構において;Query, Key, Valueの重みを複数の「ヘッド」に分ける手法はどれか。

異なる観点(部分空間)での文脈把握を可能にする。