同花顺LLM算法一面
1.自我介绍
2.你做的上下文扩大具体是怎么做的,原理是什么?
3.相关长文本是怎么做几阶段训练的?
4.除了所用的扩展方式, Deepseek 、 Llama 的长文本扩展方案是什么,为什么选择当前方案而非其他?
5.若要将模型训练到1000K的上下文长度,该从哪些方面实现,其中的难点是什么?
6.32B模型训练用到了多少显卡?
7.若将上下文扩展到1000K,该如何估算训练的算力用量?
8.上下文扩展到1000K后,训练时显存会在哪些地方暴涨?
9.用 GRPO 做后训练的过程中,遇到的典型或较难的问题是什么?
10.针对上述问题,训练 Skill 的具体方式是什么?
11.从算法设计角度,该如何解决模型无效调用工具、工具调用参数失败的问题?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2.你做的上下文扩大具体是怎么做的,原理是什么?
3.相关长文本是怎么做几阶段训练的?
4.除了所用的扩展方式, Deepseek 、 Llama 的长文本扩展方案是什么,为什么选择当前方案而非其他?
5.若要将模型训练到1000K的上下文长度,该从哪些方面实现,其中的难点是什么?
6.32B模型训练用到了多少显卡?
7.若将上下文扩展到1000K,该如何估算训练的算力用量?
8.上下文扩展到1000K后,训练时显存会在哪些地方暴涨?
9.用 GRPO 做后训练的过程中,遇到的典型或较难的问题是什么?
10.针对上述问题,训练 Skill 的具体方式是什么?
11.从算法设计角度,该如何解决模型无效调用工具、工具调用参数失败的问题?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
曾经我也想过早点睡觉:哈基咪太强了,不愧是教员教出来的
查看11道真题和解析 点赞 评论 收藏
分享
