Transformer系のモデル(ViTやSwin Transformer)において、「Shifted Window」などの工夫が導入された主な目的は何か。

Swin Transformerでは、ウィンドウ内Attentionだけでは隣接ウィンドウの情報が得られないため、層ごとにウィンドウ分割位置をずらす(Shift)ことで、大域的な情報の統合を効率的に実現した。