画像を格子状に分割するのではなく;注目すべき領域を階層的に絞り込んでいくVision Transformerの発展型はどれか。

スライド窓を用いて階層的な特徴表現を得る高効率なモデル。