阿里算法面经
八股文:
SFT 训练时,数据规模和模型大小之间有什么 scaling law?
除了 GRPO,还有哪些改进技术?比如 DPO、GSPO?
怎么解决 DPO 和 GRPO 的 reward hacking 问题?
DPO、GRPO 和 PPO 有啥区别?
聊聊全参数微调和 PEFT?
PEFT 的四种模式(addition, replace, LoRA, prompt tuning)分别讲讲?
手撕算法:
链表题:判断链表有没有环,找出两个链表的相交节点。
O(n) 时间复杂度内,找出数组中第 k 大的数。