Vision Transformer (ViT) において、画像を最初に入力する際の処理単位は何か。

2026年1月25日

ViTでは、画像を固定サイズ（例：16×16）のパッチに分割し、それらを線形射影してシーケンスとしてTransformerに入力する。

画像の「せん断（Shear）」変換を表す行列（x方向へのせん断）はどれか。

GrabCutアルゴリズムにおいて、前景と背景の分布をモデル化するために用いられる確率モデルはどれか。