OpenAIの「CLIP」モデルは、どのようなデータペアで事前学習されるか。

2026年3月13日

インターネット上の大量の画像とテキストのペアを使い、画像エンコーダとテキストエンコーダの出力を近づける対照学習を行う。

セグメンテーションモデルDeepLabで採用された「Atrous (Dilated) Convolution」の効果はどれか。

音声認識で使われる「CTC Loss」が解決した問題はどれか。