Qwen3 Embedding 与 BGE 有什么区别?

🌟Encoder 架构的词嵌入模型
数据格式:[ CLS ]句子 A [ SEP ]句子 B [ SEP ]并行计算:同时感知上下文,计算速度快向量表示: Encoder 会在输入的最前面加一个特殊的[ CLS ]标记。在经过计算后使得[ CLS ]标记向量能够代表整句话的含义
Qwen3 Embedding 基于Qwen3模型,嵌入模型将单个文本段作为输入,用[ EOS ]标记所对应的向量代表整句话的向量。
Qwen3 Embedding 的训练过程
1.使用大合成数据进行弱监督学习利用Qwen3基座模型直接合成数据,而 BGE 与E5等模型都是从开源社区收集数据。
2.利用高质量合成数据进行 SFT 对筛选出的高质量合成数据和公开监督数据集进行监督训练。
3.模型合并
将微调过程中的多个模型检查点保存,采用 slerp 技术进行模型融合,增加泛化能力。
🌟Qwen3 Embedding 的数据合成
Qwen3 Embedding 模型加入信息检索、比对挖掘、分类和文本相似度四类合成数据。
以信息检索为例
1.输入:多语种文档+候选角色
Qwen3-32B决策:选择最可能对文档感兴趣的角色、问题类型与难度(高中/大学的知识)
2.构造检索对:输入上一阶段的文档与角色,对问题类型、难度进行限制。从角色视角出发,按需求生成文档对应的自然语言查询。
🌟Qwen3 Embedding 的新用法
Qwen3 Embedding 模型的 query 前能加一个 prompt ,这个 prompt 会与 query 一起向量化。
那么我们就可以在向量化 query 前加一个 prompt :寻找写作风格相似的其他文档。
🌟总结🍊
1.训练数据不同。以前词嵌入模型采用公开数据,现在的训练数据会使用大模型加工合成,更精细可控,站在了巨人的肩膀上。
2.模型结构不同。在生成式大模型采用 Decoder 架构后,词嵌入模型也借鉴了 Decoder ,使用[ EOS ]标签对应的向量来表示句子向量。
3.训练方法改进。 Encoder 架构的训练方式是 Mask 猜词与相似度计算。而Qwen3词嵌入模型采用多阶段训练与合并结果,让模型效果更上一层楼。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

时间有几天了,可能有些地方不是记得很清楚了一面:1、自我介绍2、讲两个你认为做的很好的项目亮点,是你自己想到的吗?那你是怎么实现的呢?3、讲讲Java常用的集合有哪些?4、HashMap的底层和原理?5、什么是线程安全?6、线程创建有哪几种方式?7、数据库索引有哪些?8、索引有哪些失效的情况?9、你说你算法基础不错,那项目里有用到哪些传统算法解决什么问题?10、平常ai是怎么使用的?有用过哪些ai?11、反问环节二面:1、自我介绍2、把你认为你做过最难的项目功能详细讲一下?你说到rag检索功能,那具体实现算法讲一下,你是怎么实现的呢?3、llm怎么知道调用tool的?你是怎么具体实现的?4、有用到mcp吗?5、你的rag检索的文本有多大?是ai生成的还是你自己在电商爬取的数据?6、这个智能ai客服功能在最初实现前是你自己想的吗?选择了哪些架构和中间件?为什么选这些?7、反问环节两轮面试都挺短的,都是20分钟左右结束,没有手撕算法环节,八股文问的也不多不难,主要是偏向项目实际落地上,整体对我的ai技术点追究很多,感觉最近大大小小的公司对ai都很上心啊。上学期为了找第一份实习边学边看牛客给我整得失眠还吃上褪黑素了,结果还是0offer,寒假在家修养了一个月过完年就开投发现机会比9、10、11月份多,也是得偿所愿了。开始正式从学生向社会过渡,也不知道有哪些讲究。我这边也想问一下牛友们,实习生的穿着是不是要正式一点?平时午休和下班是自己看时间走吗,有没有铃声提醒?平时午休需要回去吗?还是直接在公司里休息?上班期间如果是带自己电脑可以使用ai或者百度问题吗?最开始怎么和同事打好关系?(本人比较内向,社交能力不足)感谢大伙解答了
大三一定要找到实习:恭喜恭喜,去了么感觉如何
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务