阿里国际 大模型算法一面分享 1h
压力拉满,考得比较深
1- 问项目
2- 为什么选择grpo不用sft,技术选型,什么时候用sft,什么时候用蒸馏,什么时候用grpo
3- grpo训练中观察什么指标
4- 八股:
5- grpo 的 loss 讲讲
6- Advangates 怎么算的,在整个训练中起什么作用,为什么需要Advatanges,直接用奖励去算不行吗?
7- 重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
8- grpo的kl散度和ppo的kl散度是一模一样的吗
9- ppo grpo 是on-policy还是off-policy
10- ppo中advantages是怎么得到的?
11- 信用分配,grpo中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的
12- Agent 做多轮工具调用 和单轮,可能有什么挑战?
13- code:x 的平方根(只保留整数部分)
1- 问项目
2- 为什么选择grpo不用sft,技术选型,什么时候用sft,什么时候用蒸馏,什么时候用grpo
3- grpo训练中观察什么指标
4- 八股:
5- grpo 的 loss 讲讲
6- Advangates 怎么算的,在整个训练中起什么作用,为什么需要Advatanges,直接用奖励去算不行吗?
7- 重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
8- grpo的kl散度和ppo的kl散度是一模一样的吗
9- ppo grpo 是on-policy还是off-policy
10- ppo中advantages是怎么得到的?
11- 信用分配,grpo中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的
12- Agent 做多轮工具调用 和单轮,可能有什么挑战?
13- code:x 的平方根(只保留整数部分)
全部评论

可以的,写的很好呢
相关推荐
点赞 评论 收藏
分享
_hengheng:我也本,也算是做ai相关,我最开始感觉做ai工程师有多么多么困难,后来发现懂了原理后整体训练完全可以看成一个流程化的内容,开源方案太多了,大多基本都是按着模子在自家业务上做各种操作,就算是大厂的小部门也没那么多资源去训基模,反而更多的是像怎么把技术往业务方向靠近了,不过当前时代如果本科学历没那么好加上自己执行力不是特别强还真不建议走ai工程师这条路,可以试试其他ai的偏业务方向,不然校招不太好杀出来 点赞 评论 收藏
分享
查看6道真题和解析