算法打工人阿旺 level
获赞
279
粉丝
315
关注
0
看过 TA
1896
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
2025-09-29 22:35
中山大学 算法工程师
0 点赞 评论 收藏
分享
2025-09-25 23:06
中山大学 算法工程师
查看17道真题和解析
0 点赞 评论 收藏
分享
2025-09-24 21:18
中山大学 算法工程师
1️⃣一面 1.自我介绍和过项目2.知道 deepspeed 和 megatron 吗,分别介绍一下3.Decoder 文本生成有哪几种方法4.Attention 为什么要做scaled ,不做会怎么样,为什么用根号 d _ k5.说一下 Decoder 的因果注意力, QKV 分别来自哪6.深挖多模态大模型论文用的video - llama ,讲一下大模型的结构7.LoRA 初始化怎么做的,用的秩是多少,为什么不选其他的数8. 介绍一下 ALBEF 、 BLIP2️⃣二面1.介绍多模态论文2.论文用了CoT,讲一下论文的CoT是怎么样的3.介绍transformer 架构4.BLIP2的结构是什么,两阶段怎么训练的,有哪些损失5.知道 PEFT 吗,讲一下 LoRA6.LoRA 是什么,有什么好处7.Transformer 怎么做加速训练,训练和推理有什么区别8.一些场景题3️⃣三面1.过项目2.讲一下你用的大模型是什么结构,特征是怎么喂给大模型的3.讲一下multi-head attention,用pytorch手撕一下,要可以实现cross attention的4.大模型训练为什么不用SFT5.知道RLHF吗,讲一下训练流程6.问了几个电商相关的场景题,用大模型解决 prompt 应该怎么设计,怎么处理prompt的输出,怎么过滤错误格式的输出📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
2025-09-23 22:44
中山大学 算法工程师
1️⃣RAG 有哪几个步骤?Step1:将文本分割成块;Step2:使用编码模型将这些块嵌入到向量中,将所有这些向量放入索引中;Step3:LLM 创建一个提示,告诉模型根据我们在搜索步骤中找到的上下文来回答用户的查询。2️⃣实际项目中RAG有哪些优化技巧?首先召回源会考虑多路召回,在召回后面增加一个重排序的阶段,提升召回的质量。另外,重排序模型以及生成模型会根据系统问答的指标情况,进一步微调。3️⃣RAG 中为什么会出现幻觉?出现幻觉问题主要分为两大类,一是生成结果与数据源不一致,训练数据和源数据不一致、数据没对齐或者编码器理解能力的缺陷导致;二是用户问题超出了大模型的认知,用户的问题不在语言模型认知范围内导致。4️⃣RAG 一般怎么做效果评估?RAG 做效果评估主要是针对检索和生成两个环节。对检索环节,我们可以采用 MRR 即平均倒排率,前 k 项的 Hits Rate 命中率, NDCG 排序指标等。生成环节首先是量化指标,再评估生成答案的多样性,看看模型是否能够生成多种合理且相关的答案。还需要引入人类评估,考虑资源效率。5️⃣针对幻觉的问题,有什么解决思路?加入一些纠偏规则,比如采用 ReAct 的思想,让大模型对输出的结果进行反思。还有一种思路是集成知识图谱,即不再局限于向量数据库匹配,做召回时不仅考虑文档块,同时还考虑图谱的三元组。将知识图谱( KGs )集成到 RAG 中,通过利用知识图谱中结构化且相互关联的数据,可以显著增强当前 RAG 系统的推理能力。6️⃣在实际做项目中,经常遇到各种边界的 case ,一般怎么解决?这个需要分情况来看,首先是无效问题:如果对于知识库中没有的问题,我们需要做一个准入的判别,判断是否需要回答。一般是一个二分类模型,或者直接用大模型+ prompt 来做,使模型在这种情况下输出一个预设的兜底话术。第二个是减少幻觉,在推理模块中添加规则和提示工程技术。还有一种是格式错误:模型可能会生成无法解析的答案,这种可以设计一个备份的代理大模型,当解析失败时,可以基于代理大模型直接生成简洁准确的总结。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看6道真题和解析
0 点赞 评论 收藏
分享
2025-09-19 22:52
中山大学 算法工程师
查看16道真题和解析
0 点赞 评论 收藏
分享
2025-07-17 22:36
中山大学 算法工程师
1️⃣抖音一面1、聊项目。2、AUC的两种公式是?你能证明这两种等价的吗?3、BERT-CRF中,为什么要加CRF?好处是?4、self-attention为什么要用QKV三个矩阵,不用有什么问题?有没有哪个模型的Q和K矩阵是一样的?5、reinforce属于on-policy还是off-policy?为什么?6、reinforce带上baseline好处是?reinforce的loss写一下?7、策略梯度会推导吗?简单写一下?8、代码题(代码题一般别着急写,先跟面试官说下思路,确定了再写):lc 46,全排列(lc表示leetcode,下同)。lc 73,矩阵置0。2️⃣抖音二面1、介绍项目。2、知识蒸馏有哪几种?你觉得哪种效果最好?3、nlp的数据增强方法,主要有哪几种?每一种举个例子?4、分类的损失函数为什么是交叉熵而不是mse?5、BERT对输入文本的长度有什么限制,为什么要限制长度呢?6、BigBird里面有哪几种注意力机制?相比原始transformer的self-attention的优势?7、场景题:如何根据拼多多的商品数量,估计淘宝的商品数量?8、给出emb_size, max_len, vocab_size, ff_inner_size,num_heads, 12层,求BERT参数量。9、代码题:n皇后问题。3️⃣抖音三面‍1、简单聊项目。2、CRF和HMM区别?CRF为什么比HMM效果好?3、如果BERT词表很大,比如vocab_size达到几百万,怎么办?4、快速手写一些transformer的mha(多头注意力),伪代码意思一下就行。5、为什么对比学习中,temperature很小,而知识蒸馏的temperature比较大?6、你觉得在抖音买东西,和淘宝、拼多多他们的区别是?(我没在抖音买过,就只能现场编。)7、你最近看到过哪些paper?简单介绍下?8、你觉得自己有那些优缺点?平时喜欢怎么缓解压力?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
0 点赞 评论 收藏
分享
2025-07-16 12:38
中山大学 算法工程师
GRPO(Group Relative Policy Optimization)虽然最初是为强化学习中的reasoning任务(如需要多步决策、逻辑推理的任务)设计的,但其核心思想——通过组内策略的相对比较来优化策略——也可以应用于非reasoning任务(如简单的控制任务、分类任务甚至生成任务)。以下是具体的分析和建议:首先我们看下GRPO的关键创新点是:✅组内相对比较(Group Relative):将策略分成若干组(group),在组内比较不同策略的表现,而非绝对优化单个策略。✅相对策略梯度:通过组内策略的相对优势(relative advantage)计算梯度,降低方差并提升稳定性。这种思想本质上是一种基于比较的优化方法,与任务是否需要“reasoning”无直接关系,因此可以迁移到非reasoning任务中。🤔那么有哪些非Reasoning任务的适用场景呢?(1)简单控制任务(如机器人控制)问题:传统PPO可能因稀疏奖励或高方差导致训练不稳定。GRPO改进:将不同控制策略分组(例如不同参数化的控制器),在组内比较它们的表现,选择相对更优的策略更新。示例:机械臂抓取任务中,组内可以包含不同的抓取轨迹策略,通过相对优势选择更稳定的策略。(2)生成任务(如文本/图像生成)问题:生成模型的策略优化通常依赖对抗训练(GAN)或最大似然,容易陷入模式崩溃。GRPO改进:将生成器分成多个组(例如不同初始化或架构的子生成器),通过组内生成样本的质量相对比较优化策略。示例:在文本生成中,组内比较不同生成策略的流畅性、多样性等指标。(3)分类/回归任务问题:传统监督学习直接优化损失函数,可能对噪声敏感。GRPO改进:将模型的不同参数化版本(如不同dropout、超参数)分组,通过组内相对性能(如验证集准确率)更新模型。示例:图像分类中,组内比较不同数据增强策略的效果。✴️总结GRPO可以用于非reasoning任务,但需重新设计组的划分方式和相对比较的指标。其核心优势在于通过组内相对优化降低方差,适合奖励稀疏或需要多策略并行的场景。如果任务本身已有高效优化方法(如标准的监督学习),GRPO可能不会带来显著提升。🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务