度小满 大模型算法实习 二面

攒人品中,祝大家都能拿到满意的Offer!
1.构建训练数据时如何滤除低质量数据,如何保证数据中没有低质量数据
2.你觉得pretrain的模型和distill的base模型在做sft时有什么区别
3.sft时学习率是如何调的,如何做的消融实验
4.直接用余弦退火学习率和加一个warm up有什么区别,加warm up的意义是什么
5.如果计算资源有限,对于32b的大模型,如何快速找到最佳的超参如何设计高效的消融实验
6.合成数据是用的什么模型,如何部署的,用的什么框架
7.sft时用的什么框架
8.讲一讲moe的架构
9.讲一讲qwen3的moe
10.你觉得deepseek的moe中的共享专家有什么用
11.讲一讲ppo算法
全部评论

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务