阿里算法面经

八股文:

SFT 训练时,数据规模和模型大小之间有什么 scaling law?

除了 GRPO,还有哪些改进技术?比如 DPO、GSPO?

怎么解决 DPO 和 GRPO 的 reward hacking 问题?

DPO、GRPO 和 PPO 有啥区别?

聊聊全参数微调和 PEFT?

PEFT 的四种模式(addition, replace, LoRA, prompt tuning)分别讲讲?

手撕算法:

链表题:判断链表有没有环,找出两个链表的相交节点。

O(n) 时间复杂度内,找出数组中第 k 大的数。

全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务