Vision Transformer (ViT) が画像を処理する際の前処理はどのようなものか。

ViTは画像を固定サイズのパッチ(例: 16×16)に切り分け、それらを単語の並びのように見立ててTransformerに入力する。