WeChat:

相关推荐

1. 基础概念题:什么是大模型核心加速技术中的 “算子融合”?举例说明其作用。答案要点:算子融合是将多个连续计算算子合并为一个,减少计算图中的节点数和显存读写次数,降低延迟。举例:如将 Transformer 中的 Add(残差连接)与 RMSNorm(归一化)融合,减少两次内存访问,提升推理速度。2. 技术原理题:Flash Attention V2 如何优化注意力计算效率?与 V1 的核心区别是什么?答案要点:• V1:通过分块计算注意力,减少显存占用(避免存储所有中间键值对)。• V2:引入 “内外循环交换策略”,将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式,进一步提升计算效率,尤其在长序列场景下加速明显。3. 量化技术中,FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异?4. RAG 系统中,文档切分粒度如何影响检索和生成效果?实际中如何确定最优粒度?5.在长序列推理场景中,PagedAttention 和 Prefix Caching 分别解决什么问题?如何配合使用?答案要点:• PagedAttention:将 KV Cache 分块存储在非连续显存中,避免显存碎片,支持处理超长序列(如百万 Token);• Prefix Caching:缓存历史对话的 KV 对,跨请求复用,减少重复计算(如多轮对话中复用上文缓存)。配合逻辑:PagedAttention 解决显存限制,Prefix Caching 减少计算量,两者结合可提升长对话场景的效率和稳定性。6. 在企业级推理场景中,如何根据需求选择量化方案?举例说明短文本高并发和长文本场景的优化策略。实时客服系统用 INT4 量化加速响应;金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。
点赞 评论 收藏
分享
05-30 19:03
门头沟学院 Java
4.17投的简历4.30约我一面5.8一面Redis实现Session共享的延伸:如果用的是本地缓存,如何实现数据一致性?会有什么问题?Redis的RDB持久化和AOF持久化Mysql什么能保证数据崩溃重启不丢失?Mysql的binlog日志Redis的Cache Aside Pattern和Read/Write Through Pattern缓存穿透的解决如何实现视频的点赞取消,判断用户是否点赞,点赞的次数(Redis)如果不使用设计模式是否可以?设计模式是为了干嘛的?TCP四次挥手(如果存在用命令查到,系统中存在大量Close wait状态,是因为什么?)双亲委派模型(大体上是这些,其他的有些忘了)是否有offer了?反问:有什么可以改进的地方?接下来还有几轮面试?代码题:在保证线程并发安全的情况下,并发读取多个文件的字符串,并且合并统计出现次数,确保5秒的超时时间。面试官人很好,会一直提示你,并且出的题都是根据场景来的,我最后代码题,有一点点没写出来的代码,面试官也帮我点出来了。也是经过两周hr给我打电话说部门没hc了,意料之内,情理之中复活换了个部门进行二面,5.23二面,一共1小时15分钟左右二面全程拷打项目,我写的是点评加12306,不过本人写了两段大数据开发的实习经历(没问)面试官问,我一边回想一边说自己做了什么项目改进3天后告知2面通过,约了5.29进行3面5.29三面发现是TL和HR一起面的,TL拷打我项目几个问题, 我记得最深刻的一个是我用lua脚本代替分布式锁来进行抢单,lua脚本好在哪里?没回答中点,擦边回答了,最抽象的是hr换岗之后没跟我说部门是哪里的(不是三面的hr),然后他问我知道公司在哪里么,我回答了一堆意向杭州的话,听到他们说北京的时候有点红温了,赶紧圆了一下。反问:培养方案是否有机会转正进去负责的业务5.30 oc,感觉几个月以来的付出都有了回报,这几个月都看着大佬们的oc非常羡慕,终于自己也等来了收获,来此还愿,积攒人品,我希望大家在周围人都oc,坚持不下去的时候都咬牙坚持下来,别放弃自己,越痛苦沉重的时候,越要学习,机会来临的时候,很可能只有这一次,请把握住!
查看17道真题和解析
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务