Shopee Ai算法大模型二面 1h
被横向挂了,希望发出来对大家有帮助!
1.实习拷打
2.项目拷打
3.强化学习Policy-based和Value-based的区别
4.强化学习on-policy和off-policy的区别
5.RLHF中的Reward Model怎么实现的
6.手撕:哈希遍历
1.实习拷打
2.项目拷打
3.强化学习Policy-based和Value-based的区别
4.强化学习on-policy和off-policy的区别
5.RLHF中的Reward Model怎么实现的
6.手撕:哈希遍历
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
佬 考虑我司么 考虑的话可以看我主页帖子
相关推荐
查看11道真题和解析