画像とテキストを共通のベクトル空間に埋め込むCLIPの技術において;画像と対応するテキストを近づけ、無関係なものを遠ざける学習手法はどれか。

対となるデータの類似度を最大化し;意味的な関連性を学習する。