静止画からではなく;数枚の参照画像とテキストから高い一貫性を持つ「動画」を生成する技術の要となる仕組みはどれか。

フレーム間の繋がり(時間的な整合性)を学習し;不自然な揺らぎを防ぐ。