算法打工人小旺 level
获赞
54
粉丝
86
关注
0
看过 TA
410
中山大学
2025
算法工程师
IP属地:山东
咨询辅导请联系牛客账号:算法打工人阿旺
私信
关注
🌟Encoder 架构的词嵌入模型数据格式:[ CLS ]句子 A [ SEP ]句子 B [ SEP ]并行计算:同时感知上下文,计算速度快向量表示: Encoder 会在输入的最前面加一个特殊的[ CLS ]标记。在经过计算后使得[ CLS ]标记向量能够代表整句话的含义Qwen3 Embedding 基于Qwen3模型,嵌入模型将单个文本段作为输入,用[ EOS ]标记所对应的向量代表整句话的向量。Qwen3 Embedding 的训练过程1.使用大合成数据进行弱监督学习利用Qwen3基座模型直接合成数据,而 BGE 与E5等模型都是从开源社区收集数据。2.利用高质量合成数据进行 SFT 对筛选出的高质量合成数据和公开监督数据集进行监督训练。3.模型合并将微调过程中的多个模型检查点保存,采用 slerp 技术进行模型融合,增加泛化能力。🌟Qwen3 Embedding 的数据合成Qwen3 Embedding 模型加入信息检索、比对挖掘、分类和文本相似度四类合成数据。以信息检索为例1.输入:多语种文档+候选角色Qwen3-32B决策:选择最可能对文档感兴趣的角色、问题类型与难度(高中/大学的知识)2.构造检索对:输入上一阶段的文档与角色,对问题类型、难度进行限制。从角色视角出发,按需求生成文档对应的自然语言查询。🌟Qwen3 Embedding 的新用法Qwen3 Embedding 模型的 query 前能加一个 prompt ,这个 prompt 会与 query 一起向量化。那么我们就可以在向量化 query 前加一个 prompt :寻找写作风格相似的其他文档。🌟总结🍊1.训练数据不同。以前词嵌入模型采用公开数据,现在的训练数据会使用大模型加工合成,更精细可控,站在了巨人的肩膀上。2.模型结构不同。在生成式大模型采用 Decoder 架构后,词嵌入模型也借鉴了 Decoder ,使用[ EOS ]标签对应的向量来表示句子向量。3.训练方法改进。 Encoder 架构的训练方式是 Mask 猜词与相似度计算。而Qwen3词嵌入模型采用多阶段训练与合并结果,让模型效果更上一层楼。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
今天给大家分享一份热乎的大模型应用开发面经。1️⃣时间范围近半年2️⃣先说总结(1)面试内容 & 难度个人觉得,在 LLM 应用的面试题上,没有太多复杂、高深的问题,不像上来让你说一下分布式锁怎么设计然后死扣设计细节或是描述一下 MVCC 原理这种偏高难度的八股文问题(当然也遇到了一两次)。(2)offer会有很多横向对比,如果你期望薪资比较高,对方说要在等等,基本上凉了。大部分涨幅基本是不到 20% 的,但我的期望是 30% 左右,最后还是拿到了。(3)再总结如下:每次面完都要复盘,没答好的问题,一定要重新梳理答案。没把握问题的可以直接说不会,别给个你自己都听不懂的答案。多看技术文章,扩展技术视野,提高二面面试官对你的印象。终究还是要看效果,看落地效果。3️⃣面试题1.LLM 基础:大模型是怎么训练出来的?2.Transform 的架构,Encoder 和 Decoder 是什么?3.Function Call 是怎么训练的?4.微调的方案有哪些?自己做过没有?5.大模型分词器是什么?6.Embedding 是什么?7.你们用的那个模型?8.Lib:介绍一下 langchian9.介绍一下 autogen有没有用过大模型的网关框架(litellm)为什么手搓 agent,而不是用框架?10.mcp 是什么?和 Function Call 有什么区别?有没有实践过?A2A 了解吗?11.Prompt:ReAct 是啥?怎么实现的?CoT 是啥?为啥效果好呢?有啥缺点?Prompt Caching 是什么?温度值/top-p/top-k 分别是什么?各个场景下的最佳设置是什么?12.RAG:你介绍一下RAG 是什么?最难的地方是哪?文档切割策略有哪些?怎么规避语义被切割掉的问题?多路召回是什么?文档怎么存的?粒度是多大?用的什么数据库?为啥要用到图数据库?向量数据库的对比有没有做过?Qdrant 性能如何?量级是多大?有没有性能瓶颈?怎么规避大模型的幻觉?微调和 RAG 的优劣势?怎么量化你的回答效果?例如检索的效果、回答的效果。13.workflow:怎么做的任务拆分?为什么要拆分?效果如何?怎么提升效果?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看24道真题和解析
0 点赞 评论 收藏
分享
1.决策树与随机森林区别2.GBDT的原理、 XGBoost 与 LightGBM (项目涉及会问到)3. XGBoost 的其他变体( CatBoost 等)4. Transformer (这个这个超级超级重要!!)5.手撕 Self - Attentin 、 Multi - Head Attention6.特征归一化( LN / BN )7.交叉熵损失(字节常考,交节)8.优化器( SGD / Adam / Adagrad )9.L1/L2正则化( LightGBM 中也会用到)10. Dropout 原理11.模型初始参数为0的问题12.梯度消失与梯度爆炸及其解决方法13.Wide& Deep 模型(也可以准备一下,很多工业界还用这种类似的模型,有 wide 侧和 deep 侧,说不定面试官会感兴趣)14. DeepFM 模型15. DIN 模型、 DIEN 模型(特征处理)16.多目标学习( MMOE 、 ESMM ,可以了解 PLE )17.DIN模型、 SIM 模型18.DCN模型和其他交叉网络( LHUC 、 SENet 、 FiBiNet )19.冷启动策略(新闻推荐项目也会涉及冷启)20.重排规则(可以看王树森的课程简单了解)21.A/ B 测试的分桶方式是什么?22.推荐系统的短期消费指标?23.推荐系统的北极星指标(最关键指标)?24.推荐系统的转化流程是什么?25.矩阵补充模型原理和损失函数26.召回的正负样本选择(曝光未点击的能否作为负样本)📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
0 点赞 评论 收藏
分享
非科班0基础极限转行算法经验分享✅搜广推方向:①先看《利用python进行数据分析》第二章第三章(不用看文件操作)大概半天就能掌握python的语法。不懂的地方千万不要死磕,直接问大模型。以chatbox举例(图3.4.5)看不懂的概念/代码直接输入进去,chatbox会解释的很详细。②学《李沫的动手学深度学习》只学两个部分:1pytorch基础概念比如张量和广播机制,了解MLP,2看transformer这一章(同时在网上找一下讲解视频多看几遍。其他部分时间不够可以不看~③然后学蓝色的《互联网大厂推荐算法实战》④看王树森的8H推荐网课。⑤看王喆的《深度学习推荐系统2.0》⑥找个天池竞赛看懂代码,魔改不魔改看个人需求。⑦学有余力的可以看看相关论文最好是开源的跑通以后包装一下。✅LLM方向基础①②同理,但是这块我也没太学明白所以没啥路线只能给大家分享一下资料。1.复旦大学的《大语言模型从理论到实践》第二版2.斯坦福的cs33。 这两个我感觉学明白以后别的资料都不用看了,直接看自己感兴趣方向的论文就行。另外0基础的同学,刚开始入门的时候,有不会的问题一定不要自己卡着,我刚开始学的时候经常开三四个大模型的窗口,轮流问。并且不同的模型最强的地方不一样,比如gpt逻辑能力强,可以拿来解释代码、搭框架;claude写代码比较厉害,deepseek擅长搜索。但是买那么多ai不仅贵,网页切来切去还麻烦,chatbox一个窗口就可以用十多个很热的模型,是一个集成式ai工具箱,不用科学上网,用起来相对比较方便。chatbox还有网页版,轻量不下载,即开即用,一个api可以同时支持五个ip登录~💣注意:我上面给出来的学习路线是有先后顺序的,这个顺序是我自己踩出来的坑😭一定要注意。后面有空可以细说一下坑在哪里还有半个月0基础刷lc的经验教训。📳对于想求职算法岗的同学,************,提升面试能力,******。
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
RAG基本是转大模型应用层的必备项目,但是其实优化策略非常多,要体现深度的行业✅如何写一个有深度 RAG 项目经历包含以下内容:1、逻辑框架2、示例描述3、简历模版1️⃣明确项目背景与动机问题陈述:说明当前大模型在特定领域存在的局限(如知识更新滞后、幻觉问题等),以及为何选择 RAG 方法来弥补这些不足。在工业场景中,主要以下3个原因:🌟知识库的即时更新:大模型的训练数据是有时效性的,所以外挂知识库🌟数据的隐私性: tob 场景中,公司的数据是有隐私性要求的🌟业务场景:描述项目的应用场景(例如:智能问答、知识管理、客户支持等),以及采用 RAG 后能为业务带来的改进。2️⃣详细阐述系统架构与核心流程1.数据准备阶段2.数据提取与清洗:说明如何收集多源数据,进行格式统一和预处理。3.文本分割策略:描述如何根据 Embedding 模型的 Token 限制进行智能切分,保证语义完整性。向量化与入库:指出使用哪种预训练 Embedding 模型(如M3E、 BGE 等)以及如何构建向量索引(例如利用 FAISS 、 Milvus 等)。应用阶段4.检索策略:介绍相似性检索、全文检索以及多路召回(例如倒排排序、 RRF 融合)的具体实现。5.Prompt 设计与生成:说明如何构建有效的 Prompt ,将检索到的文本与原问题融合,调用大模型生成答案,并描述如何调优 Prompt 以应对幻觉问题。6.模块化设计:如果有采用模块化或迭代优化的策略,也要重点说明,比如如何分层次、分模块实现不同功能,从而提升系统稳定性和扩展性。参考:这些部分可以参考业内成熟实践,如目 RAG 优化方案:案例+代码+图解文章的思路。3️⃣突出个人贡献与方法论落地1.方法论指导:详细描述你在项目中如何运用理论指导实践,比如数据预处理、向量检索算法的选择、 Prompt 工程调优等。2.创新点与优化措施:列举你提出的关键改进措施,如如何降低幻觉风险、提高召回准确率、优化系统响应速度等。3.量化成果:用具体数据展示优化效果(例如准确率提升20%、响应速度提升30%等)。示例描述:“在项目中,我主导设计了数据分割和向量化流程,通过引入动态文本切分策略,将检索召回准确率提升了15%,同时优化了 Prompt 设计,问答准确率提高20%。”📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
07-21 17:37
已编辑
中山大学 算法工程师
1️⃣Q1:针对翻译类、创意写作类、头脑风暴类任务,分别如何设置 temperature 和 top_p?任务越标准越严谨(如翻译),temperature 就越低;任务越开放越创新(如写作、头脑风暴),就适当提高 temperature 和 top_p,增强多样性。2️⃣Q2:一个专业的提示词模板由哪几部分构成?为什么提示词中需要描述角色定义?一个专业的提示词(Prompt)模板通常包含以下几部分:角色定义(Role)→ 告诉模型“你是谁”(例如你是医生/律师/客服/算法工程师)。任务目标(Task)→ 明确你要模型完成什么任务,比如“写摘要”、“做分类”、“写代码”。上下文信息(Context)→ 提供必要背景,让模型理解问题场景。输入数据(Input)→ 提供需要处理的具体内容,如文本、问题或数据片段。输出格式要求(Output Format)→ 规定模型输出的格式或风格,比如表格、列表、JSON 或限制字数等。因为大模型是通过模式学习的,角色定义能引导模型以更专业、更符合预期的语气和风格回答问题。3️⃣Q3:为了尽可能防止提示词注入,如何设计提示词模板?如何在系统层面检测提示词注入攻击?1. 提示词模板设计防护明确角色设定:在 prompt 中指定模型身份和行为范围,如“你是一个只能回答财经问题的助手”。使用指令封闭结构:避免开放式提示,使用模板化结构如 "指令: {instruction} \n 输入: {input} \n 输出: "。控制用户插入点:将用户输入限制在变量 slot 中,避免影响系统指令。2. 系统层面注入检测关键词黑名单匹配:检测如“忽略之前的指令”“你现在是…”等注入特征。提示词审查机制:在提示词构造后进行语义分析,识别可能的角色切换、指令覆写。响应行为监控:监控输出是否越权,如输出系统不允许的内容,可触发告警或拒答。使用上下文分离机制:通过系统-用户分段处理,防止用户内容污染系统 prompt。4️⃣Q4:在没有推理模型之前,如何让模型先思考后回答?思维链、自洽性、思维树等几种技术各有什么优缺点?在没有推理能力前,如何让模型“先思考后回答”?通过提示词工程引导模型“思考”,即在 prompt 中显式要求模型列出推理过程,如加上:"请一步步思考再作答"(思维链)"请验证你的答案是否与前提一致"(自洽性)"请考虑多种可能情况,再做判断"(思维树)5️⃣Q5:如何保证模型的输出一定是合法的 JSON 格式?将大模型用于分类任务时,如何保证其输出一定是几个类别之一,而不会输出无关内容?如果开发一个学习英语的应用,如何确保其输出的语言始终限定在指定的词汇表中?如何保证输出是合法 JSON 格式?结构化提示词:明确指令,如:“请仅输出以下 JSON 格式:{"label": ..., "score": ...},不添加任何解释。”使用函数调用(Function Calling / Tool Use)机制:如 OpenAI / Qwen 支持结构化 schema,让模型输出严格符合预定义结构。后处理校验:使用 JSON 解析库进行合法性校验,不合法则重试生成或触发 fallback 策略。分类任务中如何约束输出为限定类别?封闭式提示设计:明确说明“只允许从以下选项中选择一个:A、B、C”。Few-shot 示例引导:通过提供标准分类示例(如“输入:... → 输出:B”)提高一致性。输出校验与纠偏:使用正则或解析器判断输出是否合法,不合法时触发二次问答或重新生成。可选:使用 Logits Bias / 多标签 token sampling 控制输出 token(限 API 层实现)英语学习应用中如何限制词汇范围?词汇表内提示约束:在提示中加入说明:“请仅使用以下词汇表中的单词作答”,并附上词表。使用词表检索后重写(Constrained decoding):结合规则或重写策略,将非词表内词替换或拒答。训练或微调阶段加入词表限制示例:增强模型对“词汇边界”的理解。结合语法校正模块二次过滤:检测并剔除越界词汇。5️⃣Q5:如果我们需要生成小说的标题、角色描述和故事梗概,当单次模型调用生成效果不佳时,如何分步生成?可以采用分步生成策略,分阶段控制质量与连贯性:分步流程设计:Step1:生成小说主题或关键词Step2:基于主题生成小说标题Step3:根据标题设定角色Step4:生成故事梗概优点:更高控制力:每步可加入人工或规则约束,确保输出质量。提升上下文一致性:逐步构建世界观,避免信息混乱。易于纠错与重试:某一步生成不佳时,仅重试该步。6️⃣Q6:如果用户跟模型对话轮次过多,超出了模型的上下文限制,但我们又希望尽可能保留用户的对话信息,该怎么办?信息摘要:对早期对话进行摘要压缩,保留核心内容,如用户目标、偏好、历史提问等。结构化记忆:将对话转为结构化格式存入外部 memory,后续构建 prompt 时引用这些结构化内容,而非逐轮堆叠原始对话。轮次截断:固定保留最近 N 轮对话,加上摘要或记忆,构成上下文窗口。外部记忆+RAG 机制:将历史对话存入向量数据库,用户提问时检索相关历史片段,再拼接进 prompt。7️⃣Q7:如何编写一个智能体,帮助用户规划一次包含机票预订、酒店安排和景点游览的旅行?需要配置哪些工具?如何确保系统在面对不完整或矛盾的信息时仍能提供合理建议?采用基于工具调用的智能体架构用户输入 → 智能体分析任务意图 → 规划任务流程 → 多工具调用 → 整合回复结果📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务