OpenAIの「CLIP」モデルは、どのようなデータペアで事前学習されるか。

インターネット上の大量の画像とテキストのペアを使い、画像エンコーダとテキストエンコーダの出力を近づける対照学習を行う。