百度提前批 AIGC 凉

凉透了啊,主要是基础的机器学习知识不会。。。
1.自我介绍
2.实习介绍
3.实习经历提问
如果有一个无限长文本的大模型,和一个有限长带知识库 rag 的大模型,你怎么利用他们解决长记忆?
调 prompt 过程有哪些问题?
prompt 样本多了效果变差你理解是什么原因?
简单介绍一下 peft 微调和他们的优缺点。
peft 训练的时候有没有注意他们训练的时间长短比较?
你觉得你这个对齐用 RLHF 会不会更好一点?
其他的忘记了
尴尬的开始了,面试官硬要问我机器学习 hh(这个毕竟不是一直做算法,很多基础课都很差)
先问 cos 距离和欧式距离是否是同步增和减?(会不会出现一个增另一个减的问题。我没推出来)
面试官:你这下去看看,这是 rag 向量检索的基础。

写了个代码题字典数
面试官:还是要问点机器学习的。。。
交叉熵公式写一下(慌了,好几个月都没复习这个了🥲,真记不起来,反正各种提示也不记得,寄)
面试官:这种基础的都能忘记啊?
那你再讲讲 self attention 的计算的流程啥的,中间的维度,softmax 对行还是对列?(这块应该没啥问题)
面试官:再问点什么机器学习的呢?交叉熵都不记得了,看看你简历有啥。(思考了一会)算了,就到这里吧,你看看你有啥要问的。

这个时候面试已经一个半小时了😭😭代码题后及时结束多好。。还是要回去复习基础知识了。心碎啊
全部评论
意难平啊家人们,这个 cos 和欧式距离一个是角度一个长度怎么可能同步。。。当时没太明白。 loss 确实是高频考点。 机器学习那些比较基础的八股还是一定要会,虽然一般可能用不到。
4 回复 分享
发布于 2024-08-23 22:03 北京
哈哈,看你是北大的想挽留一下,换成其他学校问到后面早就不耐烦了
3 回复 分享
发布于 2024-08-24 16:21 天津
请问现在有后续吗?我也才面这个,太难了二面
点赞 回复 分享
发布于 2024-08-27 22:00 上海
佬几面,我也是AIGC,二面秒挂
点赞 回复 分享
发布于 2024-08-26 22:00 浙江
研究岗还是业务岗啊,问这么多吗
点赞 回复 分享
发布于 2024-08-26 14:57 北京
请问佬,prompt 样本多了效果变差你理解是什么原因?这个问题应该会有哪些原因呢
点赞 回复 分享
发布于 2024-08-24 09:15 北京

相关推荐

1. 基础概念题:什么是大模型核心加速技术中的 “算子融合”?举例说明其作用。答案要点:算子融合是将多个连续计算算子合并为一个,减少计算图中的节点数和显存读写次数,降低延迟。举例:如将 Transformer 中的 Add(残差连接)与 RMSNorm(归一化)融合,减少两次内存访问,提升推理速度。2. 技术原理题:Flash Attention V2 如何优化注意力计算效率?与 V1 的核心区别是什么?答案要点:• V1:通过分块计算注意力,减少显存占用(避免存储所有中间键值对)。• V2:引入 “内外循环交换策略”,将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式,进一步提升计算效率,尤其在长序列场景下加速明显。3. 量化技术中,FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异?4. RAG 系统中,文档切分粒度如何影响检索和生成效果?实际中如何确定最优粒度?5.在长序列推理场景中,PagedAttention 和 Prefix Caching 分别解决什么问题?如何配合使用?答案要点:• PagedAttention:将 KV Cache 分块存储在非连续显存中,避免显存碎片,支持处理超长序列(如百万 Token);• Prefix Caching:缓存历史对话的 KV 对,跨请求复用,减少重复计算(如多轮对话中复用上文缓存)。配合逻辑:PagedAttention 解决显存限制,Prefix Caching 减少计算量,两者结合可提升长对话场景的效率和稳定性。6. 在企业级推理场景中,如何根据需求选择量化方案?举例说明短文本高并发和长文本场景的优化策略。实时客服系统用 INT4 量化加速响应;金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。
点赞 评论 收藏
分享
评论
18
60
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务