Vision Transformer (ViT) において、画像を最初に入力する際の処理単位は何か。

ViTでは、画像を固定サイズ(例:16×16)のパッチに分割し、それらを線形射影してシーケンスとしてTransformerに入力する。