度小满 大模型算法实习 二面
攒人品中,祝大家都能拿到满意的Offer!
1.构建训练数据时如何滤除低质量数据,如何保证数据中没有低质量数据
2.你觉得pretrain的模型和distill的base模型在做sft时有什么区别
3.sft时学习率是如何调的,如何做的消融实验
4.直接用余弦退火学习率和加一个warm up有什么区别,加warm up的意义是什么
5.如果计算资源有限,对于32b的大模型,如何快速找到最佳的超参如何设计高效的消融实验
6.合成数据是用的什么模型,如何部署的,用的什么框架
7.sft时用的什么框架
8.讲一讲moe的架构
9.讲一讲qwen3的moe
10.你觉得deepseek的moe中的共享专家有什么用
11.讲一讲ppo算法
1.构建训练数据时如何滤除低质量数据,如何保证数据中没有低质量数据
2.你觉得pretrain的模型和distill的base模型在做sft时有什么区别
3.sft时学习率是如何调的,如何做的消融实验
4.直接用余弦退火学习率和加一个warm up有什么区别,加warm up的意义是什么
5.如果计算资源有限,对于32b的大模型,如何快速找到最佳的超参如何设计高效的消融实验
6.合成数据是用的什么模型,如何部署的,用的什么框架
7.sft时用的什么框架
8.讲一讲moe的架构
9.讲一讲qwen3的moe
10.你觉得deepseek的moe中的共享专家有什么用
11.讲一讲ppo算法
全部评论
相关推荐
点赞 评论 收藏
分享
