「CLIP (Contrastive Language-Image Pre-training)」が学習するタスクは何か。

Web上の大量の画像とテキストのペアを用い、正しいペアの類似度を上げ、誤ったペアの類似度を下げるように学習することで、汎用的な視覚-言語表現を獲得する。