小红书大模型算法 实习面经

继续来分享下之前的面经~欢迎友好讨论,信息共享
1. LLaMA 相比原始 Transformer 架构有哪些改进?
2. 微调(Fine-tuning)和对齐(Alignment)的区别?
3. 模型微调到什么程度才需要进行对齐?
4. 四种对齐算法的区别:PPO、DPO、GRPO、DSPO?
5. 位置编码的作用?为什么相对位置编码通常比绝对位置编码更好?
6. GAE(Generalized Advantage Estimation)以及重要性采样(Importance Sampling)?
7. 损失采样(Loss Sampling)相关问题?
8. 目前了解哪些大模型架构?例如 LLaMA 等。
9. 是否了解 PagedAttention?
10. LoRA 中两个低秩矩阵是如何初始化的?
11. PPO 中的四种模型分别是什么?各自的作用是什么?
全部评论

相关推荐

前言:面试官说不方便开摄像头,而且有很大杂音,感觉应该是没在会议室设备不好之类的。不知道是不是KPI面面试总时长1个小时,没有录音,以下是回忆:1. 先在聊天里给了一个代码(主要与可变参数函数和越界访问段错误有关),让我判断编译能不能通过,运行会不会崩溃(这块是print函数输出,平时本菜狗很少用,连%d输出的是整数还是浮点都忘记了,尬死我了,但最后回答应该是没错的)2. 现在我在一个客户端向服务端发送数据,什么情况下会导致发送阻塞,底层原因是什么?(这里从socket发送缓冲区和TCP滑动窗口机制回答的)3. 直接开始项目,问了我的第一个项目,提了一嘴很少看到有人写这个,让我讲述一下动机,从前期技术选型到中期代码实现到后期优化测试都讲了一遍,然后问了项目中io_uring和eventfd实现、Reactor和Proactor模型区别,有栈协程和无栈协程,ucontext与其他协程上下文实现有做过对比(没做过)4. 问第二个项目,主要问了Raft算法,引申出一个分布式场景题:一个分布式集群,每个节点存储的数据量很大,其中一个节点宕机,为了恢复服务需要新加入一个节点,那么就要将其他节点的备份数据复制到新节点,问因为数据量很大,复制导致带宽占用很大,影响了其他节点的正常服务,你会如何解决?(答了在低峰期复制,在高峰期使用转发机制)5. 写项目的时候有没有用到AI,是如何用的?6. 如果让你借助AI从0实现一个Raft算法,你会如何与AI交流?7. 写给AI看的文档和写给人看的文档有什么区别?(内心OS:这是什么问题?)8. 反问:部门业务,实习时间要求,下一面时间(这里面试官说“在我这没问题”,是不是过了)
查看16道真题和解析
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务