HOMELv019 動画認識で用いられる「3D CNN」の入力データの次元構成は通常どうなるか。 2026年3月13日 動画は静止画(高さ×幅×色)に時間軸が加わるため、畳み込みも時間方向を含めた3次元的な操作となる。 顔認証などで用いられる「ArcFace」損失関数の特徴はどれか。 「Vision Transformer (ViT)」において、クラス分類の結果を得るために使われるトークンはどれか。