滴滴暑期大模型算法一面凉经分享
继续来分享下最近的面经~
1.lora和全量的显存计算怎么算,一般来说哪一部分占比最大
2.描述一下dpo
3.dpo的损失函数
4.dpo训练参数
5.(思考题)蒙特卡洛算法,先验概率
6.7b模型用几张卡训
7.llm as judge的偏见分为哪些,有什么解决方法
8.rag流程
9.假如关闭llm的think模式,但在prompt里依旧写<think>……</think>会怎样
10.强化学习训练指标
11.举一个自己的reward hawking例子
12.rag的演变历程
13.怎样算是一个优秀的prompt
等
手撕:
快排
1.lora和全量的显存计算怎么算,一般来说哪一部分占比最大
2.描述一下dpo
3.dpo的损失函数
4.dpo训练参数
5.(思考题)蒙特卡洛算法,先验概率
6.7b模型用几张卡训
7.llm as judge的偏见分为哪些,有什么解决方法
8.rag流程
9.假如关闭llm的think模式,但在prompt里依旧写<think>……</think>会怎样
10.强化学习训练指标
11.举一个自己的reward hawking例子
12.rag的演变历程
13.怎样算是一个优秀的prompt
等
手撕:
快排
全部评论

可以的,感觉有戏
相关推荐
点赞 评论 收藏
分享

查看8道真题和解析