淘天大模型算法校招二面
一、算法与基础
1. 手撕Transformer decoder层代码,要求实现mask机制
2. 预训练时为什么要用Masked LM而不是直接预测下一个token?
3. 大模型量化中,INT4和FP16的精度损失主要差在哪些场景?怎么弥补?
4. 讲一下MoE结构的原理,为什么能在增加参数量的同时控制计算成本?
二、项目深挖
1. 你做的大模型压缩项目,为什么选择知识蒸馏而不是量化?
2. 训练时遇到过loss震荡吗?怎么定位是数据问题还是模型问题?
3. 你们的模型部署延迟要求是多少?用了哪些优化手段?
4. 如何评估一个生成模型的创造性?有哪些量化指标?
三、业务场景题
如果让你设计一个垂直领域小模型,数据量有限但要求推理快,完整流程会怎么设计?
1. 手撕Transformer decoder层代码,要求实现mask机制
2. 预训练时为什么要用Masked LM而不是直接预测下一个token?
3. 大模型量化中,INT4和FP16的精度损失主要差在哪些场景?怎么弥补?
4. 讲一下MoE结构的原理,为什么能在增加参数量的同时控制计算成本?
二、项目深挖
1. 你做的大模型压缩项目,为什么选择知识蒸馏而不是量化?
2. 训练时遇到过loss震荡吗?怎么定位是数据问题还是模型问题?
3. 你们的模型部署延迟要求是多少?用了哪些优化手段?
4. 如何评估一个生成模型的创造性?有哪些量化指标?
三、业务场景题
如果让你设计一个垂直领域小模型,数据量有限但要求推理快,完整流程会怎么设计?
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看11道真题和解析