算法打工人阿旺 level
获赞
158
粉丝
194
关注
0
看过 TA
1169
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
查看16道真题和解析
0 点赞 评论 收藏
分享
1️⃣抖音一面1、聊项目。2、AUC的两种公式是?你能证明这两种等价的吗?3、BERT-CRF中,为什么要加CRF?好处是?4、self-attention为什么要用QKV三个矩阵,不用有什么问题?有没有哪个模型的Q和K矩阵是一样的?5、reinforce属于on-policy还是off-policy?为什么?6、reinforce带上baseline好处是?reinforce的loss写一下?7、策略梯度会推导吗?简单写一下?8、代码题(代码题一般别着急写,先跟面试官说下思路,确定了再写):lc 46,全排列(lc表示leetcode,下同)。lc 73,矩阵置0。2️⃣抖音二面1、介绍项目。2、知识蒸馏有哪几种?你觉得哪种效果最好?3、nlp的数据增强方法,主要有哪几种?每一种举个例子?4、分类的损失函数为什么是交叉熵而不是mse?5、BERT对输入文本的长度有什么限制,为什么要限制长度呢?6、BigBird里面有哪几种注意力机制?相比原始transformer的self-attention的优势?7、场景题:如何根据拼多多的商品数量,估计淘宝的商品数量?8、给出emb_size, max_len, vocab_size, ff_inner_size,num_heads, 12层,求BERT参数量。9、代码题:n皇后问题。3️⃣抖音三面‍1、简单聊项目。2、CRF和HMM区别?CRF为什么比HMM效果好?3、如果BERT词表很大,比如vocab_size达到几百万,怎么办?4、快速手写一些transformer的mha(多头注意力),伪代码意思一下就行。5、为什么对比学习中,temperature很小,而知识蒸馏的temperature比较大?6、你觉得在抖音买东西,和淘宝、拼多多他们的区别是?(我没在抖音买过,就只能现场编。)7、你最近看到过哪些paper?简单介绍下?8、你觉得自己有那些优缺点?平时喜欢怎么缓解压力?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
0 点赞 评论 收藏
分享
GRPO(Group Relative Policy Optimization)虽然最初是为强化学习中的reasoning任务(如需要多步决策、逻辑推理的任务)设计的,但其核心思想——通过组内策略的相对比较来优化策略——也可以应用于非reasoning任务(如简单的控制任务、分类任务甚至生成任务)。以下是具体的分析和建议:首先我们看下GRPO的关键创新点是:✅组内相对比较(Group Relative):将策略分成若干组(group),在组内比较不同策略的表现,而非绝对优化单个策略。✅相对策略梯度:通过组内策略的相对优势(relative advantage)计算梯度,降低方差并提升稳定性。这种思想本质上是一种基于比较的优化方法,与任务是否需要“reasoning”无直接关系,因此可以迁移到非reasoning任务中。🤔那么有哪些非Reasoning任务的适用场景呢?(1)简单控制任务(如机器人控制)问题:传统PPO可能因稀疏奖励或高方差导致训练不稳定。GRPO改进:将不同控制策略分组(例如不同参数化的控制器),在组内比较它们的表现,选择相对更优的策略更新。示例:机械臂抓取任务中,组内可以包含不同的抓取轨迹策略,通过相对优势选择更稳定的策略。(2)生成任务(如文本/图像生成)问题:生成模型的策略优化通常依赖对抗训练(GAN)或最大似然,容易陷入模式崩溃。GRPO改进:将生成器分成多个组(例如不同初始化或架构的子生成器),通过组内生成样本的质量相对比较优化策略。示例:在文本生成中,组内比较不同生成策略的流畅性、多样性等指标。(3)分类/回归任务问题:传统监督学习直接优化损失函数,可能对噪声敏感。GRPO改进:将模型的不同参数化版本(如不同dropout、超参数)分组,通过组内相对性能(如验证集准确率)更新模型。示例:图像分类中,组内比较不同数据增强策略的效果。✴️总结GRPO可以用于非reasoning任务,但需重新设计组的划分方式和相对比较的指标。其核心优势在于通过组内相对优化降低方差,适合奖励稀疏或需要多策略并行的场景。如果任务本身已有高效优化方法(如标准的监督学习),GRPO可能不会带来显著提升。🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
今天老师为大家梳理了10道RAG大模型必备面试题,供各位同学参考。1️⃣Q1:如何评估RAG生成结果的质量?A1:① 事实准确性(Factual Accuracy):对比标准答案;② 引用精确度(Citation Precision):生成内容与引用文档的相关性;③ ROUGE/L等自动指标(需谨慎,可能与事实性脱钩)。2️⃣Q2:如何优化检索的召回率(Recall)?A2:① 使用Query扩展(同义词替换/LLM改写);② 多向量表示(HyDE生成假设文档再检索);③ 调整分块策略(重叠分块/多粒度分块)。3️⃣Q3:RAG如何处理多文档冲突信息?A3:①  让LLM总结共识点并标注分歧(提示词控制);② 按文档来源权威性加权(如医学指南>普通文章);  ③ 返回多视角答案(需明确说明冲突存在)。4️⃣Q4:如何解决“检索偏好”问题(Retrieval Bias)?A4:当检索结果质量差时强制生成会导致错误。解决方案:① 训练检索评估模块过滤低质结果;② 引入回退机制(如返回“无答案”);③ 迭代检索(Re-Rank或多轮检索)。5️⃣Q5:如何优化长文档检索效果?A5:① Small-to-Big检索:先检索小分块,再关联其所属大文档;② 层次检索:先定位章节,再章节内分块检索;③ 图结构:用知识图谱关联文档片段。6️⃣Q6:解释HyDE(Hypothetical Document Embeddings)原理?A6:让LLM根据Query生成假设性答案,将其作为“伪文档”嵌入向量,再用该向量检索真实文档。解决Query与文档表述差异问题。7️⃣Q7:什么是迭代检索(Iterative Retrieval)?A7:多轮检索:首轮检索结果输入LLM生成初步答案,再以该答案为新Query二次检索,循环直到满足条件。适合复杂推理场景。8️⃣Q8:Self-RAG的核心创新点是什么?A8:引入可学习检索信号:模型自主决定何时检索(Retrieve on Demand),并生成特殊Token(如[Retrieval]、[No Retrieval])控制流程。9️⃣Q9:RAG如何适配实时更新知识库A9:① 检索器使用近实时索引(如Elasticsearch增量更新);② 生成器无需重训,但需监控新数据分布偏移。1️⃣0️⃣Q10:用户查询“2025年诺贝尔奖获得者”,但知识库只更新到2024年,RAG如何应对?A10:设计策略:① 检索器返回最新文档(2024年);② 生成器明确回答“截至2024年数据,最新获得者为XX,2025年结果尚未公布”;③ 添加时间敏感性警告。🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
✴️Shopee一直播推荐算法1️⃣—面1、聊简历项目2、code:如何利用计算机求π,不限时间复杂度,可以循环一亿次2️⃣二面1、聊简历项目2、开发性问题:有一个商品,开始时正常的,突然有点时间因为竞对的品抬高出价拿不到曝光了。等到竞对不加价后发现依旧拿不到曝光,从模型的角度解释原因以及解决方案。HR面第一轮薪资方案沟通第二轮薪资方案沟通🍊整体面试评价:一面和二面的技术体验还是比较好的,二面leader很有技术深度,项目上问了很多有意思的东西。团队整体应该比较wlb,涨幅太低拒了。✴️阿里国际・搜索广告算法1️⃣—面1、聊简历项目2、实习项目中涉及了MIND,讲一下MIND的具体实现3、看你研究生背景是CV的,讲一下MOC。(答不会,早不混cv圈了),那讲一下ViT吧4、八股:知道python的装饰器么/ if name == "main,的作用是什么/ multi-head attention的计算参数量是多大/ multi-head attention具体怎么实现/5、对大模型有什么了解么6、说一下NCELoss和Sample softmaxloss的区别,Sample softmaxloss的消偏是怎么做的?7、code数组求最大乘积子数组,有正有负,1eetCode. 152实现一个 time_decay 的 DIN2️⃣二面聊了很多广告的业务,涉及cpc计费逻辑等等没有code‍3️⃣三面(交叉面)&HR面聊了一些用户冷启的东西没有code第一轮薪资沟通第二轮薪资沟通🍊整体评价:一面的面试官技术水平比较好的,整体面试过程中气氛比较和善,能get到项目中的motivation和亮点,二面的Id面体验也是挺好的。后面的谈薪环节也是诚意拉满,打听下来团队做的事情挺不错的,团队氛围也非常好!✴️阿里淘天-首猜推荐算法1️⃣—面1、围绕GraphSage建模聊了一些东西2、问了下MIND的实现逻辑3、code:反转链表,要求递归和迭代两种方式2️⃣二面1、code:上来先写一道code:实现sqrt(x),向下取整。2、离线在线不一致问题怎么解决?3、线上SIM的实现逻辑,耗时怎么看4、跨域建模可以有哪些方式3️⃣三面(交叉面)1、聊简历项目2、code:实现MMOEHR面第一轮薪资沟通第二轮薪资沟通第三轮薪资沟通🍊整体评价:一面的小姐姐沟通非常和善,围绕着项目聊了一个小时。二面的Id比较侧重于开发性问题和思维发散能力。三面交叉面感觉是个大佬,在精排方面聊了很多,最后code环节让手措 了一个MMOE差点没绷住,整体聊下来很愉快。✴️快手-广告算法1️⃣—面1、介绍简历项目2、code查找旋转数组lc.33字符串四则运算lc.2274.12️⃣二面聊简历项目HR面第一轮薪资沟通第二轮薪资沟通第三轮薪资沟通‍🍊整体评价:一面上来先做了两道题,尤其是第二道其实还是比较搞心态的,感觉社招里也就抖快最看重做题了。做完题后就简单的聊了聊,一面完后整个人那一天都很累,感觉一上来就写题的面试强度还是挺大的。二面面试官是个大佬,面的过程主要就是聊项目,把工作中的三个项目以及两段实习的两个项目都聊了一遍,面试官非常认可,给了比较高的评价。在谈薪定级的时候,一开始没给到满意的职级,也是二面面试官去做了很多争取吧,整个组的风评也比较高,是最后几个候选去处之一。🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
面试问题记录
0 点赞 评论 收藏
分享
✅小红书商业化部门 NLP-内容理解 4面1️⃣第一面1、n时间复杂度找出数组第K大的值说出思路了 用快排思想,不过没写出来,不过面试官还行 没写出来也让我过了然后问的比较古老的一些Nlp细节2、比如问你为啥分类任务用交叉熵,不用MSE?直接反向传播原理公式,如果用MSE 你最后可能会出现梯度消失的现象还问了LN BN的细节准备的比较到位,所以都答出来了2️⃣第二面问的我好像是概率题,没写代码1、你一个硬币,均值多少次,可以丢出正反面问项目3️⃣第三面应该是答的最好的了,项目答的应该让面试官很满意,然后代码题的话1、第一个 就是 一个矩阵,从左往右 升,从上往下升,n时间复杂度,找出target我觉得太简单了,让面试官再出了一个2、又给了一道:动态规划,最长递增子序列✅知乎:AI中台 三面1️⃣第一面1、聊项目 模型细节,attention的作用,为啥要用FFN,还有LN中间说到一个点,我说为啥要在LN重新训练两个参数,我说是不然影响性能,但是其实应该是影响泛化能力2、代码题目:找出字符串的最长回文子串2️⃣第二面要我写attention的伪代码我写了一下 不过其实还要加上Mask 忘记加了还问了我 会用rebase操作吗,我说不会。问了交叉熵的细节,到底对预测对的产生loss 还是预测错的产生作用。代码题目不太记得3️⃣第三面项目负责人,项目聊的很开心代码题没写出来,不过也让我过了1、代码题目:给我一个字符串 让我判断是不是一个数学算式阿里 高德 ✅1️⃣第一面面试官挺直接的,问了项目,然后问我只做了分类是吗,我说的是的,他说你直说就是了。。。 尴尬1、概率题 给我一个函数 可以等概率生成0-5随机数字 f5() 要我依靠这个 生成一个f7()2、给我一个生成器 随机生成01 要我等概率生成一个生成器 做一个二分判别2️⃣第二面1、P9大佬,问到我一个问题,如果你需要100W数据 你怎么去跟你上司申请你要100W数据的标注资源。或者说 你现在手里有10W标注数据,你觉得你还需要再继续增加标注数据吗我觉得这个问题是我没想到的,因为我这边业务线训练数据都是比较充足2、代码题 给你一个数组,给我n时间复杂度 生成一个数组 这个数组的每个位置的字 都等于原先数组其他位置的乘积。 思路:空间换时间🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看14道真题和解析
0 点赞 评论 收藏
分享
在小模型中表现良好的许多强化学习(RL)算法策略,往往在迁移到大模型时失去效力。因此,关于RL在模型尺寸扩展(Scaling)方面的研究一直不够完善(尽管OpenAI有一篇相关研究,但其重点更多在于奖励模型的扩展)。那么,为什么RL在模型尺寸扩展上缺乏良好的趋势呢?又是什么因素导致在小模型中有效的策略在大模型中失效呢?这里Anthropic的一篇论文中找到了一些线索,该论文揭示了一个他们观察到的现象。在文章中,作者是这么说的:论文作者发现使用64亿参数模型生成的回应训练的特质偏好模型(Trait PM)表现优于使用更大模型生成回应训练的特质偏好模型。这一发现可能可以用生成回应的概念和句法多样性来解释,尽管还需要进一步研究。较小的模型可能倾向于生成概念上更多样化的样本,相较于大型模型,仅仅是因为它们的熵更高。因此,较小模型生成的两个回应在意义上可能差异更大。如果是这样,那么当样本由较小模型生成时,反馈模型可能更倾向于根据回应的意义进行判断。这或许可以解释为什么使用64亿参数模型生成回应时,特质偏好模型表现更好。相比之下,可以想象的是,1750亿参数模型生成的两个回应在概念上可能更相似,仅在句法上有所不同。在这种情况下,反馈模型可能会根据回应的结构变化进行判断。因此,特质偏好模型可能会学习到与论文作者希望学习的人工智能特质无关的虚假模式。论文作者进行了额外的实验,以检查是否可以通过简单地调整采样温度来提高使用1750亿参数模型生成回应训练的特质偏好模型的性能。确实,通过提高回应生成模型的温度可以增加样本的多样性,但论文作者发现温度对使用1750亿参数模型生成回应训练的1750亿特质偏好模型的性能影响微乎其微。这主要是因为更高的温度往往只会增加样本的句法多样性,而不会增加其概念多样性。这仍然是一个未解决的问题,需要进一步研究来验证这一初步解释。总结:大模型的输出分布往往在概念上缺乏多样性,而更多地体现在语法多样性上。相比之下,小模型可能会产生更多概念上不同的负样本(或者说非常离谱的负样本),而大模型则不会。因此,许多针对避免这些离谱负样本影响模型训练而设计的强化学习算法,在大模型上可能无法奏效。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务