ロボットが視覚情報(画像)と言語指示を受け取り;具体的な動作(関節の制御など)を出力する統合モデルを何というか。

RT-2(Robotics Transformer)などが代表例で;汎用的なロボット制御を目指す。