動画認識で用いられる「3D CNN」の入力データの次元構成は通常どうなるか。

動画は静止画(高さ×幅×色)に時間軸が加わるため、畳み込みも時間方向を含めた3次元的な操作となる。