算法打工人小旺 level
获赞
53
粉丝
86
关注
0
看过 TA
410
中山大学
2025
算法工程师
IP属地:山东
咨询辅导请联系牛客账号:算法打工人阿旺
私信
关注
算法岗薪资你了解嘛今天给大家分享一下,作为一种高效的算法岗学习路线,通过项目辅导或者保拿offer辅导的同学拿到算法岗offer的薪资有多少。我们是面向大模型,搜广推,多模态大模型等热门的算法方向提供指导。💥首先讲结论,绝大部分校招应届生拿到算法岗offer的薪资范围在40-60w,薪资总包超过50w认为是小SP,如果能达到60w以及以上可以认为是SP/SSP。💥社招,表现优秀的或者转行算法岗的同学,薪资涨幅可以达到40-50%,少部分可以实现翻倍的涨幅。✅同学A:校招,985本海外硕,非科班,参加多个项目辅导,收获快手,拼多多,虾皮,华为等公司LLM算法offer,总包最高70w。✅同学B:校招,海本海硕,参加保拿offer辅导,收获美团,快手,拼多多,新浪等公司LLM算法offer,总包最高60w+。✅同学C:校招,211本985硕,参加多模态和AIGC项目辅导,收获阿里国际和京东LLM算法offer,总包接近50w。✅同学D:校招,985本硕,参加保拿offer辅导,收获蚂蚁和小米多模态大模型算法offer,总包最高50w+。✅同学E:校招,双非本985硕,参加多模态项目辅导,收获爱奇艺多模态理解算法offer,总包45w。✅同学F:校招,双非本985硕,参加搜推算法项目辅导,收获美团搜推算法offer,总包60w。✅同学G:校招,211本985硕,参加搜推算法项目辅导,收获美团运筹算法,京东风控算法,总包最高60w。✅同学H:校招,211本985硕,参加搜推算法项目辅导,收获得物机器学习算法和360广告算法offer,总包最高60w。✅同学L:校招,双非本211硕,参加多个项目辅导,收获小米大模型应用开发offer,薪资总包40w。✅同学I:社招,985本硕,工作一年,参加多模态项目辅导,收获字节抖音内容安全的多模态大模型内容理解算法offer,薪资涨幅40%。✅同学J:社招,工作三年,海硕,非科班转行算法,参加保拿offer辅导,收获多家AI独角兽大模型算法offer,薪资涨幅最高100%。✅同学K:社招,工作三年,双非本海硕,CV转行大模型,参加保拿offer辅导,收获百度和国企大模型算法offer,薪资涨幅最高50%以上。✴️如果同学想免费规划算法岗学习路线以及了解项目辅导的具体信息,欢迎后台咨询,支持大模型/多模态/搜广推/AIGC等热门方向。互联网大厂  人工智能就业 #
0 点赞 评论 收藏
分享
✴️今天给大家分享一下,作为一种高效的算法岗学习路线,通过项目辅导或者保拿offer辅导的同学拿到算法岗offer的薪资有多少。我们是面向大模型,搜广推,多模态大模型等热门的算法方向提供指导。💥首先讲结论,绝大部分校招应届生拿到算法岗offer的薪资范围在40-60w,薪资总包超过50w认为是小SP,如果能达到60w以及以上可以认为是SP/SSP。💥社招,表现优秀的或者转行算法岗的同学,薪资涨幅可以达到40-50%,少部分可以实现翻倍的涨幅。1️⃣同学A:校招,985本海外硕,非科班,参加多个项目辅导,收获快手,拼多多,虾皮,华为等公司LLM算法offer,总包最高70w。2️⃣同学B:校招,海本海硕,参加保拿offer辅导,收获美团,快手,拼多多,新浪等公司LLM算法offer,总包最高60w+。3️⃣同学C:校招,211本985硕,参加多模态和AIGC项目辅导,收获阿里国际和京东LLM算法offer,总包接近50w。4️⃣同学D:校招,985本硕,参加保拿offer辅导,收获蚂蚁和小米多模态大模型算法offer,总包最高50w+。5️⃣同学E:校招,双非本985硕,参加多模态项目辅导,收获爱奇艺多模态理解算法offer,总包45w。6️⃣同学F:校招,双非本985硕,参加搜推算法项目辅导,收获美团搜推算法offer,总包60w。7️⃣同学G:校招,211本985硕,参加搜推算法项目辅导,收获美团运筹算法,京东风控算法,总包最高60w。8️⃣同学H:校招,211本985硕,参加搜推算法项目辅导,收获得物机器学习算法和360广告算法offer,总包最高60w。9️⃣同学L:校招,双非本211硕,参加多个项目辅导,收获小米大模型应用开发offer,薪资总包40w。1️⃣0️⃣同学I:社招,985本硕,工作一年,参加多模态项目辅导,收获字节抖音内容安全的多模态大模型内容理解算法offer,薪资涨幅40%。1️⃣1️⃣同学J:社招,工作三年,海硕,非科班转行算法,参加保拿offer辅导,收获多家AI独角兽大模型算法offer,薪资涨幅最高100%。1️⃣2️⃣同学K:社招,工作三年,双非本海硕,CV转行大模型,参加保拿offer辅导,收获百度和国企大模型算法offer,薪资涨幅最高50%以上。🌟如果同学想免费规划算法岗学习路线以及了解项目辅导的具体信息,欢迎后台咨询,支持大模型/多模态/搜广推/AIGC等热门方向。
0 点赞 评论 收藏
分享
1️⃣面试官:上面这个是 RAG 标准流程,实际项目中还有哪些优化技巧?在实际中,召回源会考虑多路召回,例如稀疏召回,语义召回,字面召回等。对于多路召回截断和召回分数对齐的问题,还会采用在召回后面增加一个重排序的阶段,精简召回数并提升召回的质量。另外,其中的 embedding 模型,重排序模型,以及生成模型会根据系统问答的指标情况,会针对性的进行进一步的微调。2️⃣面试官:那生成环节怎么评估效果?首先是量化指标:例如 Rouge - L ,文本相似度,关键词重合度等指标。除了准确度,还可以评估生成答案的多样性,看看模型是否能够生成多种合理且相关的答案。还需要引入人类评估:进行人工评估,一般是负责改项目的产品经理和测试人员,以及内测的普通用户对模型的回答进行质量、准确性和连贯性的评分。还应考虑资源效率:考虑模型的计算复杂性、内存需求和推理速度,尤其是在资源受限的环境中,看看 RAG 是否能够以合理硬件资源效果提供更好的性能。3️⃣面试官: RAG 中为什么会出现幻觉?幻觉问题是大模型的一个通病,出现幻觉问题主要分为两大类,一类是生成结果与数据源不一致,自相矛盾。另一类是用户问题超出了大模型的认知。针对前者可能是训练数据和源数据不一致、数据没对齐或者编码器理解能力的缺陷和解码器策略错误可能导致幻觉。后者则是用户的问题不在语言模型认知范围内。4️⃣面试官:针对幻觉的问题,有什么解决思路?第一个是引入更精准的知识库,消除虚假的数据源,减少数据偏差。另外可以加入一些纠偏规则,比如采用 ReAct 的思想,让大模型对输出的结果进行反思;还有现在比较流行的思路是集成知识图谱,即不再局限于向量数据库匹配,做召回时不仅考虑文档块,同时还考虑图谱的三元组。将知识图谱( KGs )集成到 RAG 中,通过利用知识图谱中结构化且相互关联的数据,可以增强当前 RAG 系统的推理能力。5️⃣面试官:在实际做项目中,经常遇到各种边界的 case ,一般怎么解决?首先是无效问题:如果对于知识库中没有的问题,我们需要做一个准入的判别,判断是否需要回答。一般是一个二分类模型,或者直接用大模型+ prompt 来做,使模型在这种情况下输出一个预设的兜底话术。第二是减少幻觉:对于时间变化的问题,模型回答"我不知道"。在推理模块中添加规则和提示工程技术,使模在不确定时回答"根据当前的信息,不足以回答这个问题"。还有格式错误:模型可能会生成无法解析的答案,例如没有输出预定义格式。
0 点赞 评论 收藏
分享
✅ 什么是RRF(Reciprocal Rank Fusion)❓一种排名融合方法,将多个检索器的结果合并成一个统一的排名。✅ RRF的作用❓不同的检索器可能会有不同的优势和不足,通过RRF可以结合它们的长处,提供更精准的结果。✅ RRF的具体流程❓RRF使用一个公式来计算每个文档的总得分,RRF(d) = sum { 1 / ( k + r ( d ) ) } ,这里 d 是文档,R 是检索器的集合,k 是一个常数,通常取60,r(d) 是文档在某个检索器中的排名。✅ 这个公式是如何做排名的❓使用了倒数排名(Reciprocal Rank),也就是( 1 / ( rank + k ) )这样排名越高的文档贡献的得分越大,这可以确保多个检索器共同认为重要的文档在最终排名中占据优先位置。同时随着排名的增加,贡献得分的增速会减缓,也就是说,排名1和排名2之间的差异,比排名100和101之间的差异更显著。另外,常数k起到了平滑因子的作用,防止单个检索器对结果的主导性太强,还能更好地处理排名相近的文档。✅ 具体讲讲RRF在RAG系统中的实际应用流程❓RRF在RAG系统中的应用可以分为几个步骤:1️⃣用户输入查询,系统开始处理。2️⃣查询被发送到多个检索器,这些检索器可以是不同的检索模型,比如密集型、稀疏型或者混合型。3️⃣每个检索器生成自己的相关文档排名。4️⃣使用RRF公式将所有检索器的排名结合起来,计算每个文档的总得分。5️⃣根据RRF得分生成最终的统一排名。6️⃣最后,生成模型使用排名靠前的文档来生成最终的答案。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
查看13道真题和解析
0 点赞 评论 收藏
分享
✅一面 1.自我介绍,问实习和论文2.看你实习微调过Qwen2,说说Qwen2的模型结构吧,Qwen2相比Qwen1做了哪些改进3.为什么现在 Decoder - only 成为大模型的主流架构,相比于 Encoder - Decoder 的架构好在哪里4.讲一下 RoPE 吧,目前常用的位置编码还有哪些, RoPE 有什么优点(相对位置、外推性……),如何进一步外推5.为什么有了 SFT 之后还需要 RLHF6.PPO和 DPO 的主要思想是什么, DPO 相比 PPO 的 RLHF 做了哪些改进,除此之外还知道哪些 RL 算法,知道 DeepSeek 的 GRPO 吗7.代码:23.合并 K 个升序链表一面整体来说还是比较基础的,都是一些八股的知识,没有考什么自由发挥的题。不过力扣还是难的,出了一道 hard✅二面1.自我介绍,选一个做的好的实习或者论文讲一下,这里问的比较细,动机是什么,为什么用当前的方案2.了解 KV cache 吗, GQA 的思想是什么3.讲一下 FlashAttention 的思想和做法4.除了刚刚说到的这些,还了解过哪些模型训练推理优化的方法( DeepSpeed ,数据并行,张量并行,流水线并行……5.开放题:如果要提升大模型的多轮对话能力,你有哪些可以改进的点6.代码:刚刚提到了 GQA ,写一下 GQA 吧二面更偏底层优化,没有过多的问一些大模型结构方面的东西,应该是考虑到一面都问过了。整体的考察比较灵活一些✅三面:1.自我介绍,过实习和论文,这里面试官会穿插问一些八股的知识,比如了解 Qwen 的结构吗,微调的数据配比是怎样的2.大模型的灾难性遗忘问题怎么解决3.了解 RAG 吗, GraphRAG 的做法4.场景题:目前有一些专业领域知识,比如医疗知识或者法律条文,准备做一个智能助手,要让你搭建一个 RAG 链路,会怎么做5.开放题:用过豆包吗,觉得目前豆包还存在什么问题6.代码:416.分割等和子集三面一些八股还是问的比较常规的,但是自由发挥的题目有点多,感觉有点难答,不过好在面试官会进行启发,抛出一些小问题来引导回答📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
✅一面 1.首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的2.介绍一下 CLIP3.了解 LoRA 吗, LoRA 微调的原理是什么4.了解哪些多模态大模型,简要介绍几个5.BLIP的三个损失函数分别是什么,数据是怎样清洗的6.BLIP2相对于 BLIP 有哪些改进,BLIP3又有哪些改进7.Qwen- VL 的三个训练流程分别是什么,有什么作用8.视觉编码器和 LLM 连接时,使用BLIP2中 Q - Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好,说说各自的优缺点9.代码:实现多头自注意力一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的✅二面1.自我介绍和过项目,简要问了项目中使用某些方法的动机,以及是否会导致其他的问题2.了解 Transformer 吗,编码器和解码器的注意力有什么区别,在计算注意力中时除以 dk \ sqrt { d _ k }\ sqrt [ d _ k }的原因是什么3.后来有哪些比较经典的基于 Transformer 的语言模型, Qwen 相比于原始 Transformer 有哪些结构上的改动,Qwen2又有哪些改进4.了解 RLHF 吗, DPO 和 PPO 有什么区别, Loss 是什么样的,各自的优缺点是什么5.介绍一下 CLIP ,还了解什么其他的对比学习方法6.开放题:了解哪些多模态大模型,目前多模态大模型最的问题是什么7.代码:1143.最长公共子序列二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些✅三面:1.自我介绍,然后详细过了一下项目2.了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer 、 BERT 、 GPT 、 LLaMA 、 Qwen ix ,以及当时的o1推理模型3.平常有尝试过训练过大模型吗,规模小一点的也没关系4.聊天,包括职业规划等等三面比较轻松,面试官说知识点前面两面都考察过了,三面就轻松一些,大概40来分钟吧📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
大模型就业方向主要有两个:大模型应用和基座大模型。基座大模型的特点是要求高,招收的人数少,真正做基座的公司也不多。所以大模型应用反而是大部分同学实际工作的方向,大模型应用的覆盖范围广,相对要求低一些。🌟大模型应用的方向:✅搜索推荐广告:生成方向,比如自动化生成图片和视频;文本方向,比如相关性;其他方向,比如搜索推荐中的召回,重排序;✅AI 原生方向:主要是基于大模型出来的新 app ,比如豆包,元宝,夸克, Kimi 等;·和 LLM 更加匹配的方向:比如智能客服,比如 chatApp ;✅传统行业:很多传统行业,比如食品公司,MCN公司都在做 AI 转型,期望 AI 给原有行业带来新的机会;✅具身智能:机器人公司,比如宇树智能。🌟大模型应用的要求:1.大模型的基础流程:预训练,后训练等基本流程要了解;自回归和基于 Diffusion 的训练方法;2.RAG :文本拆解的方法;召回模型和优化,排序模型和优化; RAG 模型和生成联合优化;3.Agent :基本原理,比如 Plan , Memory , Tool - Use ;如何优化比如 Tool 的使用, Plan 能力的加强; MCP 协议的原理等;4.多模态:多模态大模型的基本方法,领域内多模态能力如何加强🌟大模型应用招聘要求:2025年,任何方向,要有项目,且有一定的深度或者创新;或者本人的简历很好(比如 Top 985,论文等)。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
🍓PPO ( Proximal Policy Optimiz 强化学习算法。它的核心思想是通过"限制策略更新的幅度"来确保训练的稳定性。这意味着 PPO 不会让模型策略在一次更新中发生剧烈变化,从而避免训练崩溃。它主要解决的是在有明确环境反馈(奖励)的情况下,如何让智能体学会在环境中获得更高的累积奖励。 PPO 适用于那些需要与环境进行大量交互的任务,比如机器人控制、游戏 AI 训练、自动驾驶决策等。它是一种模型无关的算法,通过不断地试错和优化,让模型掌握在特定环境下的最佳行为策略。🍓DPO ( Direct Preference Optimization )大语言模型( LLM )的"偏好对齐"问题。传统上, LLM 的偏好对齐需要用到强化学习从人类反馈中学习( RLHF ),其中一个复杂步骤是训练一个奖励模型。 DPO 的创新在于它跳过了这个中间步骤,直接从"人类 pairwise 偏好数据"中优化策略。这意味着,如果我们有数据表明"输出 A 比输出 B 好", DPO 可以直接利用这个信息来调整 LLM 的参数,让模型更倾向于生成像 A 这样的内容,而不是 B 。它的核心假设是,偏好数据本身就蕴含了对策略的约束,无需额外学习奖励函数。 DPO 本质上是一种偏好对齐算法,专注于让模型输出与人类价值观或特定偏好保持一致,而不是在某个环境中最大化奖励。它特别适用于对话系统、内容生成等需要模型输出符合人类直觉和偏好的场景。🍓GRPO ( Generative Ranked Preference Optimization ) J 以看作是 DPO 的进一步扩展和完善,主要针对生成式模型的复杂偏好优化,特别是当偏好数据是"排序型"而非简单的二元比较时。例如,当人类用户对模型生成的多个输出给出了一个排序结果(比如" A > B > C ",表示 A 最好, B 次之, C 最差)时, GRPO 能够利用这种更丰富的信息。它的核心思想是通过建模这种排序关系,让模型更精准地理解"更好"的梯度,从而提升生成内容的质量和一致性。 GRPO 的本质是生成式模型的排序偏好优化算法,是 DPO 在多候选排序场景下的自然延伸,适用于长文本生成、多轮对话连贯性优化等复杂生成任务。🍊总结来说,这三者的核心差异在于: PPO 优化的是环境奖励◇ DPO 优化的是人类的 pairwise 偏好,而 GRPO 则更进一步,优化的是多候选的 ranked 偏好。它们分别对应了不同的任务需求和数据类型,在实际项目中选择哪种算法,需要根据项目的具体目标、可获取的数据类型以及对模型行为的期望来综合考量。✴️✴️部分关于 PPO、DPO、GRPO 大模型八股面试题1. PPO 通过"限制策略更新幅度"来避免训练崩溃,在实际项目中,如果不幸遭遇训练不稳定甚至崩溃,应该优先从 PPO 的哪个核心机制入手排查?2. DPO 声称跳过了 RLHF 中训练奖励模型的中间步骤,这在实践中为大语言模型的偏好对齐带来了哪些显著的工程简化和效率提升?3. GRPO 专为处理"排序型偏好数据"而设计,在实际生成式模型项目中,当面对用户提供多轮对话的连贯性或长文本摘要的逻辑顺序等复杂偏好时, GRPO 相比 DPO 能提供哪些 DPO 无法直接提供的优势?4. PPO 在机器人控制这类需要大量环境交互的任务中表现出色,但在类似文本生成这种没有明确环境反馈的场景下,其核心局限性体现在哪里?5. DPO 虽然简化了偏好对齐流程,但它对"偏好数据质量敏感"。在实际项目中,如果收集到的 pairwise 偏好数据存在噪音或标注不一致, DPO 模型的训练会面临哪些挑战?6. GRPO 需要"更高质量的 ranked 数据"且"标注成本高",在实际项目预算有限的情况下,如何权衡 GRPO 可能带来的收益与数据标注的高昂成本?7.在 PPO 实际部署中,如果模型在训练后期出现性能停滞不前或小幅震荡,除了学习率衰减,还应检查 PPO 的哪些特定参数配置以尝试突破瓶颈?8.当 DPO 训练出的 LLM 在特定类型问题上仍然输出不符合人类偏好的内容时,排查问题时除了检查偏好数据集本身,还有哪些关于 DPO 核心假设的方面需要考虑?9.在多候选文本生成任务中,如果 GRPO 训练的模型未能有效捕捉到用户对文本之间细微排序差异的偏好,除了数据量不足,还可能是什么原因导致的?10. PPO 中"重要性采样"和"剪辑( clip )"机制在实际工程中是如何协同工作,以确保策略更新的稳定性的?请避免涉及公式,从概念上解释。11. DPO 通过直接优化策略来最大化"更优输出"的概率,这在没有显式奖励模型的背景下, DPO 是如何从人类偏好中"学习"到什么才是"更好"的?12. GRPO 如何将"多个输出的排序结果"这种复杂信息转化为模型可学习的优化目标,进而指导生成式模型输出更符合排序偏好的内容?13.如果一个团队从 PPO 转向 DPO 来优化大语言模型,他们在新项目启动前需要重新思考哪些与数据收集、模型架构或训练流程相关的核心假设和实践?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务