商汤大模型实习一面 攒人品中
继续来分享下最近的面经~欢迎友好讨论,信息共享
1.手撕mha
2.flash attention原理?为什么更快?pagedattention原理。
3.reward function怎么设计的?entropy变化意味着什么?
4.sft数据怎么构建的?滑动窗口怎么设计?多路召回怎么设计的?
1.手撕mha
2.flash attention原理?为什么更快?pagedattention原理。
3.reward function怎么设计的?entropy变化意味着什么?
4.sft数据怎么构建的?滑动窗口怎么设计?多路召回怎么设计的?
全部评论
相关推荐
创作小队长:
看到专升本+双非硕,我就知道,此事没那么简单
点赞 评论 收藏
分享
04-03 23:26
门头沟学院 前端工程师 点赞 评论 收藏
分享
查看27道真题和解析 点赞 评论 收藏
分享