京东算法实习一面 55min
1.实习介绍
2.benchmark怎么构建的?
3.transformer相对于传统模型的优势在哪?
4.mplug的创新点
5.self-attention和cross-attention有什么区别?
6.QKV的迭代/计算逻辑(一直到最优解)
7.初始矩阵怎么选择更好?
8.项目询问
9.为什么选择qwen-7b-instruct
10.怎么去评估哪一个checkpoint最好?
11.讲讲LoRA和Deepspeed的优缺点
12.开放型业务问题
13.手撕快排
2.benchmark怎么构建的?
3.transformer相对于传统模型的优势在哪?
4.mplug的创新点
5.self-attention和cross-attention有什么区别?
6.QKV的迭代/计算逻辑(一直到最优解)
7.初始矩阵怎么选择更好?
8.项目询问
9.为什么选择qwen-7b-instruct
10.怎么去评估哪一个checkpoint最好?
11.讲讲LoRA和Deepspeed的优缺点
12.开放型业务问题
13.手撕快排
全部评论
算法现在也真卷啊
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
