Vision Transformer (ViT) において、画像をどのようにTransformerに入力するか。

画像を固定サイズのパッチ(16×16など)に切り分け、単語トークンと同様に扱う。