阶跃星辰大模型算法实习一面

整体面试还是不错的,但是没后续了,不知道是哪里出了问题
1. 如何进行混合加训
2. 混合加训和 continue sft 你觉得哪个效果好,为什么?
3. Sft loss的起点数值和收敛情况。
4. 讲解一下 rlvr 使用的策略。
5. 训练 1t 模型遇到哪些困难,跟小尺寸模型有什么不同
6. Benchmark 测评情况,如何根据 benchmark 进行模型效果优化。

手撕:top-p sampling、grpo
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 昨天 07:33 广东

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务