「Vision-Language Model (VLM)」における「Flamingo」のようなモデルの特徴はどれか。

既存の高性能な言語モデルと画像モデルの重みを固定したまま、それらをつなぐアダプタ部分のみを学習させることで、効率的にマルチモーダル能力を獲得する。