快手大模型面经

先是自我介绍,聊了聊项目和之前的实习。

八股:

1. 大模型预测 token 的损失是怎么算的?有哪几种常见的损失函数?

2. 讲讲大模型的思维链技术?

3. 聊聊 Transformer?它有啥优势?位置编码是咋做的,有啥改进?ROPE 是啥?Transformer 是怎么把文本转成 token 的?

4. Lora 微调八股:矩阵 A, B 怎么初始化?为啥 B 要初始化成 0,A 不行吗?啥是矩阵的秩?

5. Bert 和 GPT 有啥区别?大模型时代,小模型还有用吗?

6. MHA 是啥?有啥改进?讲讲 DeepSeek 的 MLA?

7. MOE 一般加在哪?从训练和推理的角度看,MOE 有啥好处?

8. 你设计提示词时,一般遵循啥范式?

算法题:二叉树的层序遍历。(用队列)

全部评论
有二面了吗
点赞 回复 分享
发布于 09-03 22:12 河北
这是几面啊
点赞 回复 分享
发布于 09-03 18:09 北京
佬啥bg
点赞 回复 分享
发布于 09-03 17:58 陕西

相关推荐

09-02 11:14
已编辑
四川大学 Java
吴offer选手:这种面试是最烦的,学不到东西,然后还被挂的莫名其妙。之前看到一种说法是面试官如果不想要你了,就会问一些很简单的问题,防止你举报他
点赞 评论 收藏
分享
评论
2
18
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务