字节大模型算法 面经
攒人品攒人品
说说你项目里核心难点,深挖一下技术细节和落地痛点。
生成式任务本质是隐空间向离散 ID 做映射,你怎么论证输出序列是用户意图的最优压缩?
大模型做序列排序时,输出的概率分布如果引入业务分配机制,如何规避多方博弈和逆向优化问题?
讲讲 FlashAttention 不同版本的差异,解码阶段 KV Cache 内存碎片严重,你有哪些可行解决方案?
线上要求毫秒级推理,大模型引入投机解码,Draft 模型该怎么设计,两种优化方向怎么选?
自回归模型会放大初始错误偏差,不重新训练模型,如何通过干预中间隐藏状态实现在线纠偏?
大模型迭代更新实时数据后容易出现灾难性遗忘,怎么用梯度正交投影思路约束参数更新?
从注意力熵的角度,解释候选物品排列顺序为什么会造成模型输出 Logits 发生非线性漂移?
冷启动新样本语义对齐不足,大模型容易产生错误决策,这类问题的底层原因和优化思路是什么?
大模型落地的核心瓶颈慢慢从计算转向存储与访存,你在工程优化上有哪些理解和实践?
整场压力都很大,感觉面麻了。。。
说说你项目里核心难点,深挖一下技术细节和落地痛点。
生成式任务本质是隐空间向离散 ID 做映射,你怎么论证输出序列是用户意图的最优压缩?
大模型做序列排序时,输出的概率分布如果引入业务分配机制,如何规避多方博弈和逆向优化问题?
讲讲 FlashAttention 不同版本的差异,解码阶段 KV Cache 内存碎片严重,你有哪些可行解决方案?
线上要求毫秒级推理,大模型引入投机解码,Draft 模型该怎么设计,两种优化方向怎么选?
自回归模型会放大初始错误偏差,不重新训练模型,如何通过干预中间隐藏状态实现在线纠偏?
大模型迭代更新实时数据后容易出现灾难性遗忘,怎么用梯度正交投影思路约束参数更新?
从注意力熵的角度,解释候选物品排列顺序为什么会造成模型输出 Logits 发生非线性漂移?
冷启动新样本语义对齐不足,大模型容易产生错误决策,这类问题的底层原因和优化思路是什么?
大模型落地的核心瓶颈慢慢从计算转向存储与访存,你在工程优化上有哪些理解和实践?
整场压力都很大,感觉面麻了。。。
全部评论
相关推荐
点赞 评论 收藏
分享
查看10道真题和解析 点赞 评论 收藏
分享
03-25 19:51
杭州电子科技大学 Java 点赞 评论 收藏
分享

