Vision Transformerにおける「Inductive Bias（帰納バイアス）」の欠如とは何を意味するか。

2026年1月25日

CNNは構造的に局所結合や重み共有を持つが、ViTは全結合に近いAttention構造のため、画像特有の性質（局所性等）を事前知識として持たず、大量のデータで学習させる必要がある。