HOMELv019 「Vision Transformer (ViT)」において、クラス分類の結果を得るために使われるトークンはどれか。 2026年3月13日 BERTと同様に、入力の先頭に追加した特別な[CLS]トークンに対応する出力ベクトルを、画像全体の特徴表現として分類層に入力する。 動画認識で用いられる「3D CNN」の入力データの次元構成は通常どうなるか。 「拡散モデル(Diffusion Model)」において、画像を生成する工程は何と呼ばれるか。