字节大模型算法 面经

攒人品攒人品

说说你项目里核心难点,深挖一下技术细节和落地痛点。
生成式任务本质是隐空间向离散 ID 做映射,你怎么论证输出序列是用户意图的最优压缩?
大模型做序列排序时,输出的概率分布如果引入业务分配机制,如何规避多方博弈和逆向优化问题?
讲讲 FlashAttention 不同版本的差异,解码阶段 KV Cache 内存碎片严重,你有哪些可行解决方案?
线上要求毫秒级推理,大模型引入投机解码,Draft 模型该怎么设计,两种优化方向怎么选?
自回归模型会放大初始错误偏差,不重新训练模型,如何通过干预中间隐藏状态实现在线纠偏?
大模型迭代更新实时数据后容易出现灾难性遗忘,怎么用梯度正交投影思路约束参数更新?
从注意力熵的角度,解释候选物品排列顺序为什么会造成模型输出 Logits 发生非线性漂移?
冷启动新样本语义对齐不足,大模型容易产生错误决策,这类问题的底层原因和优化思路是什么?
大模型落地的核心瓶颈慢慢从计算转向存储与访存,你在工程优化上有哪些理解和实践?

整场压力都很大,感觉面麻了。。。
全部评论

相关推荐

政委qqq:这道题在算法竞赛里唯一考的就是高精度,但是只能难住C++这类语言,Python直接a+b秒天秒地
点赞 评论 收藏
分享
评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务