关于跨模态学习模型 CLIP（Contrastive Lan

[不定项选择题]

关于跨模态学习模型 CLIP（Contrastive Language-Image Pre-training），以下哪些说法是正确的？

CLIP 使用对比学习将图像和文本嵌入到同一个空间中

CLIP 可以用于零样本图像分类任务

CLIP 的训练需要配对的图像和文本标签数据

CLIP 只能用于分类任务，不能用于生成任务

查看正确选项

🐷突猛进

CLIP一部分可以用作生成任务，整体肯定不能用作生成，生成怎么说也要接DM或者FM，那根本算不上CLIP了

发表于 2026-03-07 15:39:56 回复(0)

提交观点

问题信息

大模型开发

难度：

1条回答 26收藏 131浏览

扫一扫，把题目装进口袋