Vision Transformerにおける「Inductive Bias(帰納バイアス)」の欠如とは何を意味するか。

CNNは構造的に局所結合や重み共有を持つが、ViTは全結合に近いAttention構造のため、画像特有の性質(局所性等)を事前知識として持たず、大量のデータで学習させる必要がある。