算法打工人阿旺 level
获赞
106
粉丝
132
关注
0
看过 TA
753
中山大学
2026
算法工程师
IP属地:山东
阿里高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
✅小红书商业化部门 NLP-内容理解 4面1️⃣第一面1、n时间复杂度找出数组第K大的值说出思路了 用快排思想,不过没写出来,不过面试官还行 没写出来也让我过了然后问的比较古老的一些Nlp细节2、比如问你为啥分类任务用交叉熵,不用MSE?直接反向传播原理公式,如果用MSE 你最后可能会出现梯度消失的现象还问了LN BN的细节准备的比较到位,所以都答出来了2️⃣第二面问的我好像是概率题,没写代码1、你一个硬币,均值多少次,可以丢出正反面问项目3️⃣第三面应该是答的最好的了,项目答的应该让面试官很满意,然后代码题的话1、第一个 就是 一个矩阵,从左往右 升,从上往下升,n时间复杂度,找出target我觉得太简单了,让面试官再出了一个2、又给了一道:动态规划,最长递增子序列✅知乎:AI中台 三面1️⃣第一面1、聊项目 模型细节,attention的作用,为啥要用FFN,还有LN中间说到一个点,我说为啥要在LN重新训练两个参数,我说是不然影响性能,但是其实应该是影响泛化能力2、代码题目:找出字符串的最长回文子串2️⃣第二面要我写attention的伪代码我写了一下 不过其实还要加上Mask 忘记加了还问了我 会用rebase操作吗,我说不会。问了交叉熵的细节,到底对预测对的产生loss 还是预测错的产生作用。代码题目不太记得3️⃣第三面项目负责人,项目聊的很开心代码题没写出来,不过也让我过了1、代码题目:给我一个字符串 让我判断是不是一个数学算式阿里 高德 ✅1️⃣第一面面试官挺直接的,问了项目,然后问我只做了分类是吗,我说的是的,他说你直说就是了。。。 尴尬1、概率题 给我一个函数 可以等概率生成0-5随机数字 f5() 要我依靠这个 生成一个f7()2、给我一个生成器 随机生成01 要我等概率生成一个生成器 做一个二分判别2️⃣第二面1、P9大佬,问到我一个问题,如果你需要100W数据 你怎么去跟你上司申请你要100W数据的标注资源。或者说 你现在手里有10W标注数据,你觉得你还需要再继续增加标注数据吗我觉得这个问题是我没想到的,因为我这边业务线训练数据都是比较充足2、代码题 给你一个数组,给我n时间复杂度 生成一个数组 这个数组的每个位置的字 都等于原先数组其他位置的乘积。 思路:空间换时间🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
投递知乎等公司10个岗位
0 点赞 评论 收藏
分享
在小模型中表现良好的许多强化学习(RL)算法策略,往往在迁移到大模型时失去效力。因此,关于RL在模型尺寸扩展(Scaling)方面的研究一直不够完善(尽管OpenAI有一篇相关研究,但其重点更多在于奖励模型的扩展)。那么,为什么RL在模型尺寸扩展上缺乏良好的趋势呢?又是什么因素导致在小模型中有效的策略在大模型中失效呢?这里Anthropic的一篇论文中找到了一些线索,该论文揭示了一个他们观察到的现象。在文章中,作者是这么说的:论文作者发现使用64亿参数模型生成的回应训练的特质偏好模型(Trait PM)表现优于使用更大模型生成回应训练的特质偏好模型。这一发现可能可以用生成回应的概念和句法多样性来解释,尽管还需要进一步研究。较小的模型可能倾向于生成概念上更多样化的样本,相较于大型模型,仅仅是因为它们的熵更高。因此,较小模型生成的两个回应在意义上可能差异更大。如果是这样,那么当样本由较小模型生成时,反馈模型可能更倾向于根据回应的意义进行判断。这或许可以解释为什么使用64亿参数模型生成回应时,特质偏好模型表现更好。相比之下,可以想象的是,1750亿参数模型生成的两个回应在概念上可能更相似,仅在句法上有所不同。在这种情况下,反馈模型可能会根据回应的结构变化进行判断。因此,特质偏好模型可能会学习到与论文作者希望学习的人工智能特质无关的虚假模式。论文作者进行了额外的实验,以检查是否可以通过简单地调整采样温度来提高使用1750亿参数模型生成回应训练的特质偏好模型的性能。确实,通过提高回应生成模型的温度可以增加样本的多样性,但论文作者发现温度对使用1750亿参数模型生成回应训练的1750亿特质偏好模型的性能影响微乎其微。这主要是因为更高的温度往往只会增加样本的句法多样性,而不会增加其概念多样性。这仍然是一个未解决的问题,需要进一步研究来验证这一初步解释。总结:大模型的输出分布往往在概念上缺乏多样性,而更多地体现在语法多样性上。相比之下,小模型可能会产生更多概念上不同的负样本(或者说非常离谱的负样本),而大模型则不会。因此,许多针对避免这些离谱负样本影响模型训练而设计的强化学习算法,在大模型上可能无法奏效。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
07-06 21:46
已编辑
中山大学 算法工程师
✅第一面和二面连在一起面的,有部分题记不住,算法都是先讲思路,再白板写代码,然后给面试官解释代码含义。1、算法:找第K大的数(快排)2、算法:从n个数字的数组中任取m个为一个组合,返回所有组合,顺序不一样的算一个组合(递归遍历+回溯)3、LR损失,推导,并且求导4、L1、L2的区别, L1为什么图像是菱形我说菱形可以用取点值画出来,面试官问怎么取点,我就有点懵住了,面完才想起来菱形应该是 |x| + |y| = 1 的函数图像5、梯度下降系列算法有哪些我有点蒙住了,后来才想起来应该问问 momentum adam 之类的算不算6、xgb介绍一下7、你知道有哪些损失函数?8、FM 与 LR对比一下9、softmax 与 二分类 比有什么特点。✅三面面试官很严肃,而且问的很细,有的题还很偏1、看过什么论文2、看过哪些开源项目3、看过哪些开源框架的源码?看过tensorflow源码没?4、看过xgboost源码没?5、开源项目一般就训练个模型吧,就很少量的代码。看过什么大的工程的源码吗?没看过源码别问了QAQ6、让你学 C++ 你认为你多久可以上手?7、算法:一个排好序的数组 arr 中,可能有重复数字,给定一个数target,求 arr[i] + arr[j] = target (i < j) 的对数。提了两个方法:一个字典记录出现过的数字和对应的索引列表(因为可能有重复,所以是列表)。然后一边遍历一边查询字典中是否出现了 target - arr[i],如果有则计数。双指针。但是有重复的数很麻烦,我考虑了一般的重复数情况,和两个重复数之和恰好为target的情况。但是面试官说还有别的情况,我就想不出来了,然后面试官说先到这吧。。8、auc介绍一下,给出计算公式9、xgb怎么并行运算(除了自带的并行找特征分裂点,还说了一般模型的按数据和按特征并行)但是面试官一直追问详细的并行方法。10、xgb与LR各自的优缺点11、LR为什么更容易并行12、有哪些常见的模型优化算法13、adam公式写一下(同时介绍了adam是momentum和RMSprop的结合)14、RMSprop为什么比adgrad好?15、为什么 adagrad 简单求和不好?16、GMM介绍一下,损失函数写一下17、EM算法介绍一下18、进程线程的区别?进程和线程相比有什么好处?19、用户态和内核态📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看27道真题和解析
0 点赞 评论 收藏
分享
多模态大模型训练中”模态懒惰“问题如何解决?下面是具体的解决方法,主要分为训练方式、算法设计和训练数据分布优化。0️⃣训练方式这里就不做赘述了,比较常见的是渐进式解冻训练:先fix住某一模态编码器权重,再训练另一模态权重,最后全网络整体训练。1️⃣一、算法细节设计1.最小化模态间投影误差结合最优传输理论(Optimal Transport)建模分布对齐,解决语义密度差异问题。主要包括下面四个核心步骤:1) 交替单模态学习:把传统的多模态联合优化过程转变为交替的单模态学习过程。在每个训练步骤中,只优化一个模态的编码器,从而减少模态之间的干扰,使每个模态都能独立地被优化。2)共享头部:每个模态独立优化,但用一个跨所有模态的共享头部来捕获跨模态的交互信息。共享头部在不同模态之间持续优化,有助于整合多模态信息。3)梯度修改机制:为了防止共享头部在遇到新模态时丢失之前学习到的信息(即模态遗忘问题),通过正交化梯度方向来减少不同模态之间的干扰。4)推理阶段动态模态融合:在inference阶段,基于不确定性的模型融合机制来整合多模态信息;评估每个模态在预测中的重要性,并根据这个评估来分配权重,然后结合所有模态的预测结果。2.模态间交叉引导融合不同模态特征差异比较常见的是跨模态交叉注意力(Cross-modal Cross-Attention)显式建模不同模态特征的融合,Query来自一模态,Key/Value来自另一模态;或者基于输入内容自适应调整各模态贡献权重,抑制低质量模态噪声。2️⃣二、训练数据分布优化1.在不同模态的不同语义层级设计对齐约束有一个非常关键的视觉专家集成(Mixture of Visual Experts),可以利用多种视觉专家模型来提供图像理解的中间信息。2.主动学习实现更平衡的数据选择某个模态特征时的变化,来估计该模态特征的边际贡献,然后对所有可能的子集选择取平均值,从而得到该模态的Shapley值。3.引导偏好优化(BPO),惩罚某一模态的依赖行为可以通过引入扰动来减少某些模态的信息内容,迫使模型在生成负面响应时依赖特定模态。比如前面提到的两个”模态偏差“的例子,棕色的北极熊和对于”房子在左边吗?“问题的不精准回答,把这些生成的偏差响应都作为负面样本,形成了一个新的偏好优化数据集。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
1️⃣第一轮1、逻辑题:8 5 3升的桶 8升水, 分成两个4升比较简单的逻辑题,也有通用题目 LeetCode 水壶问题2、算法题:一个字符串,找到第一个只出现一次的字符,n空间n时间,只能扫一次有原题:牛课题霸:第一个只出现一次的字符set或者更省内存的bitset3、算法题:字符串把多个连续空格合并成一个,输入是char*,要求原地空间4、算法题:一个整数数组,找最长的先增后降的序列基础题:牛客题霸:最长递增子序列先分别找最长递增和最长递减的,然后合并一下就好了5、c++基础,shared ptr的特点是什么,可以引用传参吗?c++11的智能指针,通过引用计数来管理,引用计数为0的时候释放内存,有效防止内存泄露的问题,每次拷贝引用计数都会+1,在传参时,不可以引用传参,原因是引用传参不会增加引用计数,在多线程或者闭包场景可能会导致引用计数混乱引发core或者内存泄露的问题6、项目:为什么设计神经网络解决问题,目前网络存在的问题是什么,后续可以怎么优化7、对于只有一个节点的二叉树,只会有一种结构,对于有两个节点的二叉树,会有2种可能的结构,对于有n个节点的二叉树,一共有几种可能的情况?当时直接就想列一下3,4,5个节点分别有多少种可能,然后看能不能找到规律,可是当去遍历4个节点时,发现遍历不住了,就放弃了。然后灵机一动,发现对于n个节点的二叉树,去掉根节点之后,会出现2个种情况。第一种一种是变成一颗n-1个节点的二叉树,这种情况存在两种可能。第二种另一种情况是,会变成一个a个节点的二叉树和一个b个节点的二叉树,a+b=n-1。这样很容易列出递推公式,问题就引刃而解了。2️⃣第二轮1、项目:为什么设计神经网络解决问题,目前网络存在的问题是什么2、二维有序数组 找target原题:牛课题霸:二维数组中的查找3、一个人打靶十次命中7次,命中率是70%,这个概率是怎么估算出来的面试官实际是想问极大似然估计,理解了题意之后就好回答了4、两瓶墨水,一红一黑,用小勺从红墨水瓶里舀一勺放入黑瓶,搅拌均匀,然后从黑瓶里舀一勺放入红瓶,这时红瓶里的红墨水多还是黑瓶里的黑墨水多?如果不搅匀呢?都是一样多,搅拌均匀的话可以很容易的写出公式。不搅匀的话,直接宏观来想,是守恒的,红墨水少了多少,就需要用多少黑墨水来填3️⃣第三轮1、算法题:顺时针打印二维数组原题 牛课题霸:顺时针打印矩阵关键考点是边界条件,奇数偶数两种情况如何简化代码,极限情况(例如1*1的矩阵)要确保能打印2、项目细节 出发点,为什么这么做,如何迭代的3、如果离开前一家公司的话,如果挽留你,什么地方最让你留恋,最可能不离职了
0 点赞 评论 收藏
分享
1️⃣自我介绍:【⌚️10分钟】点评:流水账,有些磕磕绊绊,自我介绍环节的项目介绍的很详细,非常冗余。优化:写逐字稿,背诵,提升语言表达能力。2️⃣经常问题的问题优化:【⌚️20分钟】1:transform结构了解吗?回答点评:回答的很简单,5分吧,说了transform的结构是encode-decode结构,分块,每个块里面有四个组建,MHA、FFN、LN、残差链接,介绍和理解不深刻。提升指导:梳理回答逻辑结构,讲解MHA、FFN、LN、残差链接的添加逻辑和含义,其中MHA给出代码层面理解,从2分钟的回答变成6分钟的回答。2:多头自注意力机制是啥?公式是啥?代码你会写吗?回答点评:讲了公式,但是掌握的不够细致,pytorch代码框架不熟悉,attention_mask机制没有写出来。提升指导:讲述代码的原理,如何使用代码回答问题,展示自己的理解深刻。3:rag中的多路召回是什么?embeding为啥用智源的BGE-large/Base?回答点评:使用了BM25和向量召回,但是没有讲出来两个的区别和联系提升指导:先讲原理,再讲述下语义理解能力和泛化能力的区别,计算的效率,两个互为补充等。3️⃣不会回答的问题指导:【⌚️40分钟】1:  LN不太会回答,看网上的回答很多,但是不是理解层面。2:我的向量召回是faiss做的,和这个相关的问题我如何准备?3:经常会被问到rag用的啥框架,这个问题如何回答?还需要准备框架的知识吗?4:面试官经常问我,rag的模型是啥?有做微调吗?如果不做微调怎么回答?5:大模型还需要补充那些知识?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看8道真题和解析
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务