Vision Transformer (ViT) が画像を処理する際の前処理はどのようなものか。

2026年3月13日

ViTは画像を固定サイズのパッチ（例: 16×16）に切り分け、それらを単語の並びのように見立ててTransformerに入力する。

モバイル端末向けに軽量化されたCNNモデル「MobileNet」で使用される畳み込み手法はどれか。

双方向RNN（Bidirectional RNN）のメリットはどれか。