トランスフォーマーモデルにおいて、各単語が文中の他のすべての単語とどの程度関連しているかを計算する仕組みはどれか。

Self-Attentionは文全体の構造を一度に把握できるため、長文の理解に非常に優れています。