静止画ではなく動画とテキストを理解し;ロボットの関節角度などの「アクション」を直接出力する基盤モデルを何というか。

RT-2などが代表例で;視覚と言語の理解をロボットの物理操作に結びつける。