微软

收藏
企业服务
10000人以上
上市
美国
福利丰厚榜高校必争榜offer比较常胜榜HC充足榜校招高薪榜WLB/965榜牛客指数榜
查看官网
上传简历
职位类型
全部
后端开发
前端开发
客户端开发
运维/技术支持
更多
最新
热门
目前主流的 Embedding 模型都是 Bi-Encoder 架构(双塔模型):query 和文档各自独立编码成向量,再算余弦相似度。这种架构的优势是速度快——文档向量可以离线算好存起来,查询时只需要算一次 query 的向量就能跟整个库比对。代价是精度不如 Cross-Encoder,所以才需要两阶段检索。✴️下面是目前开源社区里最常用的几个 Embedding 模型的核心对比:✅BGE-M3(BAAI 智源):目前中文场景的首选。支持中英多语言,最大 8192 token 的上下文窗口,同时支持稠密向量、稀疏向量和 ColBERT 式多向量检索三种模式。在 MTEB 中文榜单上长期稳居前列。如果你不知道选什么,无脑选 BGE-M3 不会错。✅BGE-large-zh(BAAI 智源):专注中文的大尺寸版本,在纯中文场景下精度略高于 M3,但不支持多语言,上下文窗口也只有 512 token。适合纯中文且文档较短的场景。✅GTE-multilingual-base(阿里达摩院):阿里出品的多语言 Embedding 模型,在 MTEB 多语言榜单上表现很强。跟 BGE-M3 是直接竞品关系,两者在多语言场景下各有胜负。如果你面的是阿里,了解 GTE 是基本功。✅E5-small/base/large(微软):微软出品,特点是有从 small 到 large 的完整尺寸梯度,small 版本只有 33M 参数,特别适合资源紧张或需要部署到边缘设备的场景。精度比 BGE 略低,但推理速度快很多。✅Jina Embeddings v2(Jina AI):最大亮点是支持 8K token 的超长上下文。如果你的文档 chunk 特别长(比如整段法律条文或完整的技术文档章节),其他模型可能截断,Jina v2 能全部吃进去。✅MiniLM(微软):极致轻量级,速度最快,适合对延迟要求极高或大批量处理的场景。精度是这几个里最低的,但胜在快。🌟四种经典搭配方案1️⃣经典流水线:BGE-base2️⃣检索 Top 100 → BGE-Reranker-base3️⃣精排多语言场景:GTE-multilingual-base + GTE-multilingual-rerankerGPU4️⃣紧张:E5-small + MiniLM-L6-cross-encoder(batch 推理)5️⃣长文档 / 8K:Jina-embeddings-v2 + Jina-ColBERT-v2,段内匹配更稳📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看8道真题和解析
点赞 评论 收藏
分享
2025-11-09 12:10
门头沟学院 Java
1.阿里云转正流程走了吗?我说还没,我说今年从答辩改成四轮面试了(我当时以为整个阿里云都这样,后面才知道只有我们组不答辩,是面试,而且一直以来都是这样),她问是整个阿里云都这样吗?我说不清楚,我找的一个活水面也是要这样面试。2.为什么要找活水面? 当前组业务不赚钱。3.你认为什么样的业务才赚钱?快手那边组是做内部提效软件的,赶紧找补,4.阿里云实习有什么感受?强度不高,但是能学到技术。5.强度不高是具体指?6.微软和阿里云实习有什么区别?喜欢哪个?7.投其他公司了吗?到哪一步了?8.你觉得你对校招岗位最看重的是哪些?普适性和自我提升 团队氛围 钱9.希望薪资?完全没经验,先说了希望25k+10.希望在哪工作?北上杭 >深>其他11.为什么出国?12.出国花费高嘛?13.为什么想回国工作?14.怎么找的第一份实习? 我还嘴贱提了之前本来要去快手的,结果微软来offer就把快手鸽了。15.本科朋友去向咋样?我说都挺好,清华 上交 中科大等等16.为什么没本科工作?家里希望我拿个硕士文凭,怕学历贬值17.学校学习和公司工作区别?我说了学校更循规蹈矩,公司要探索业务。18.你说公司要探索业务,但是你之前有说你是比较任务导向型的,这是不是比较矛盾?我赶紧找补,说前期任务导向效率高,后期业务理解透彻了去探索,19.职业发展规划?技术方面,根据校招第一份工作决定深耕哪方面技术。
查看21道真题和解析
点赞 评论 收藏
分享
2025-11-09 11:05
门头沟学院 Java
查看13道真题和解析
点赞 评论 收藏
分享
1.面试官上来先介绍业务:内部效率部门,主要为公司内部开发效率软件。2.微软实习埋点怎么实现的?异步如果出错了该怎么办?如果网络不好,埋点上报不上去该怎么办?3.阿里云实习MQ怎么用的?解耦 + 削峰4.RocketMQ事务消息内部怎么实现的?两阶段提交:半消息 - > 全消息。5.RocketMQ内部存储和Kafka区别。Segment 和 CommitLog。为什么要这样设计?6.事务消息在RocketMQ里面是怎么存储的?半消息只写到commitLog,不写到Queue里。为什么这样设计?7.有10个topic,9个普通消息,1个事务消息,他们应该都是写在一个CommitLog里对吧,然后在写进Queue的时候,如果遇到了还没commit的事务消息是怎么做?等肯定不可能,那后面还需要回查这个消息吗?如果后面有遇到另一个已commit的事务消息该怎么办?回答的不好hhh,应该是commit的时候直接写进Queue里。8.Kafka如何顺序消费?写到一个partition里面。都写到一个partition里面就保证顺序消费了吗?说了消费者需要单线程。9.redis热key问题。只答了读写分离加分片 和改key放到不同分片上。其实还有复制几份key这个方法。10.mysql深分页问题。之前看到过,忘记了。答得不好hhhh。中间聊到了mysql执行计划。11.算法: 不用hashmap,set的两数之和。参照三数之和做法。12.反问:如果我进去了,您觉得我最大的挑战在哪? 熟悉生产环境,熟悉项目,不过没问题都有人带,这几年的校招生成长的都挺好的hhh。
查看14道真题和解析
点赞 评论 收藏
分享
分享我的面试经验
模拟面试
真实面试体验,快速补齐短板
应聘感受
暂无应聘感受
牛客网
牛客网在线编程
牛客网题解
牛客企业服务