Vision Transformer (ViT) における「パッチ埋め込み」とはどのような処理か。

画像を16×16などのパッチに切り分け、それぞれをフラットにして行列を掛け、Transformerが扱えるベクトルの列に変換する。