HOMELv009 Vision Transformer (ViT) が画像を処理する際の前処理はどのようなものか。 2026年3月13日 ViTは画像を固定サイズのパッチ(例: 16×16)に切り分け、それらを単語の並びのように見立ててTransformerに入力する。 モバイル端末向けに軽量化されたCNNモデル「MobileNet」で使用される畳み込み手法はどれか。 双方向RNN(Bidirectional RNN)のメリットはどれか。