画像認識モデルにおいて;画像の局所的な特徴だけでなく;「画像全体の文脈」を捉えるためにTransformerを導入したモデルはどれか。

画像も「パッチの並び」として扱う。