動画認識で用いられる「3D CNN」の入力データの次元構成は通常どうなるか。

2026年3月13日

動画は静止画（高さ×幅×色）に時間軸が加わるため、畳み込みも時間方向を含めた3次元的な操作となる。

顔認証などで用いられる「ArcFace」損失関数の特徴はどれか。

「Vision Transformer (ViT)」において、クラス分類の結果を得るために使われるトークンはどれか。