度小满大模型实习岗一轮面试
llama的结构,自己部署训练的时候用了多大的模型 几张卡
使用RAG向量数据库的时候有什么额外的处理,wordembedding用的什么模型
问了一下为什么目前主流的模型都是用的decoder-only结构
问了问项目的内容,具体模块为什么这么使用
代码让写了一下self-attention模块,没有torch库,可以写一下伪代码
问了一下attention模块里的mask应该加在哪里,怎么加,mask是什么形式,如果加在softmax之前,值应该怎么设置
然后问了考官一些问题
使用RAG向量数据库的时候有什么额外的处理,wordembedding用的什么模型
问了一下为什么目前主流的模型都是用的decoder-only结构
问了问项目的内容,具体模块为什么这么使用
代码让写了一下self-attention模块,没有torch库,可以写一下伪代码
问了一下attention模块里的mask应该加在哪里,怎么加,mask是什么形式,如果加在softmax之前,值应该怎么设置
然后问了考官一些问题
全部评论
😭借楼招大模型算法实习同学,jd:北京文心一言(自然语言处理部),根据业务需求思考数据构建策略,构建SFT、DPO、check_list数据,多机多卡训练SFT、DPO、RL,愿意思考如何从数据角度优化模型效果。 实习3个月以上,一周出勤4天。
接好运
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
07-08 18:55
中山大学 算法工程师 点赞 评论 收藏
分享