快手大模型面经

先是自我介绍,聊了聊项目和之前的实习。

八股:

1. 大模型预测 token 的损失是怎么算的?有哪几种常见的损失函数?

2. 讲讲大模型的思维链技术?

3. 聊聊 Transformer?它有啥优势?位置编码是咋做的,有啥改进?ROPE 是啥?Transformer 是怎么把文本转成 token 的?

4. Lora 微调八股:矩阵 A, B 怎么初始化?为啥 B 要初始化成 0,A 不行吗?啥是矩阵的秩?

5. Bert 和 GPT 有啥区别?大模型时代,小模型还有用吗?

6. MHA 是啥?有啥改进?讲讲 DeepSeek 的 MLA?

7. MOE 一般加在哪?从训练和推理的角度看,MOE 有啥好处?

8. 你设计提示词时,一般遵循啥范式?

算法题:二叉树的层序遍历。(用队列)

全部评论
同学,瞅瞅我司,医疗独角兽,校招刚开,名额有限,先到先得,我的主页最新动态,绿灯直达,免笔试~
1 回复 分享
发布于 09-09 08:03 广东
有二面了吗
点赞 回复 分享
发布于 09-03 22:12 河北
这是几面啊
点赞 回复 分享
发布于 09-03 18:09 北京
佬啥bg
点赞 回复 分享
发布于 09-03 17:58 陕西

相关推荐

09-29 13:39
已编辑
百度_Java开发工程师
经过了快手、虾皮两家秋招面试一面挂血和泪的教训,我终于明白了一个面试最核心的要求——不要自己闷头讲!为什么这么说?以我自己为例,我的两段实习,分别是在百度和腾讯,在百度做的是nl2sql大模型应用,在腾讯做的是传统工程化社交业务,那么在面试中,就面临一个很重要的问题,我该讲大模型应用还是讲工程业务?To be, or not to be. It's a question!在我秋招的第一场面试中,由于并不是ai应用岗位,我在自我介绍中着重给快手面试官讲了我在腾讯做的一些工程化工作,在百度的工作一笔带过,看似很合理,但是讲完了面试官却说他更喜欢大模型应用,想听我讲没听到重点,虽然最后我又找补讲了一些,可惜最后还是没能跟面试官思维同步!第二场面试虾皮一面,我学聪明了,既然我的优势就是有过当下比较火的大模型应用,那么我就“扬长避短”,详细讲了百度的工作。可惜事与愿违,面试官根本听不下去,我百度的还没讲完他就直接打断我,说既然是面试工程岗位就不要讲这些……最后也是毫无意外的挂了。仔细分析这两场面挂经历,都有一个共同点——自我介绍的时候一直是我一个人在讲,没有跟面试官交流。或许我可以在中间穿插着问问面试官对哪方面感兴趣,再着重介绍,另外需求中涉及到的一些背景芝士,也可以问问面试官是否了解再决定是否要讲。果然当我尝试了跟面试官先交流问问他对简历哪方面更感兴趣再详细介绍后,上面这种“不同频”的尴尬境地就少了很多,除了个别八股战神面试官……其实这也适用于其他方面,很多同学也都有两段实习或者是多个不同的工作内容,那么如果你每次面试只介绍自己准备好要说的项目,也会经常遇到这种尴尬场面。只有在面试中不断地跟面试官交流、反馈,用这种ReAct模式循序渐进而不是你自己预设好的模板去PlanAndExecute,才能跟面试官保持在一个频道上。面试本质上是面试官和你的一场双向奔赴,只有当面试官跟你发生“同频共振”,面试官才会觉得你的思维跟他是一致的,这样面试的效果才会最好!
可爱的海螺最喜欢冬天:他既然没有听到想听的内容,直接问你就好了,他为什么不问呢,是没长嘴吗?
你觉得哪一届的校招最难?
点赞 评论 收藏
分享
评论
6
36
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务