淘天大模型算法校招二面

一、算法与基础
1. 手撕Transformer decoder层代码,要求实现mask机制
2. 预训练时为什么要用Masked LM而不是直接预测下一个token?
3. 大模型量化中,INT4和FP16的精度损失主要差在哪些场景?怎么弥补?
4. 讲一下MoE结构的原理,为什么能在增加参数量的同时控制计算成本?

二、项目深挖
1. 你做的大模型压缩项目,为什么选择知识蒸馏而不是量化?
2. 训练时遇到过loss震荡吗?怎么定位是数据问题还是模型问题?
3. 你们的模型部署延迟要求是多少?用了哪些优化手段?
4. 如何评估一个生成模型的创造性?有哪些量化指标?

三、业务场景题
如果让你设计一个垂直领域小模型,数据量有限但要求推理快,完整流程会怎么设计?
全部评论

相关推荐

不愿透露姓名的神秘牛友
2025-12-10 15:21
华为-媒体院 算法 n*16 硕士985
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务