マルチモーダルAIの学習において、画像とテキストを関連付けるためによく使われる手法はどれか。

OpenAIが開発したCLIPなどは、画像とテキストを共通のベクトル空間で学習させる。