「Vision Transformer (ViT)」において、クラス分類の結果を得るために使われるトークンはどれか。

2026年3月13日

BERTと同様に、入力の先頭に追加した特別な[CLS]トークンに対応する出力ベクトルを、画像全体の特徴表現として分類層に入力する。

動画認識で用いられる「3D CNN」の入力データの次元構成は通常どうなるか。

「拡散モデル（Diffusion Model）」において、画像を生成する工程は何と呼ばれるか。