阶跃星辰-大模型智算集群系统研发
正/在/热/招
JOIN
US
阶跃星辰
[实习]大模型智算集群系统研发
上海市 北京市
职位描述岗位职责:
1.参与大规模大模型训练/推理系统的故障诊断与根因分析,构建自动化异常检测系统
2.研发面向大规模异构智算集群(GPU/NPU)的智能管理系统
3.优化RoCE网络协议栈性能,解决大规模 pretrain/post-train/RL等场景下的网络拥塞与稳定性问题
4.开发集群健康度监测、自动化运维等工具链,提升大规模集群运维效率
核心能力要求:
1.对分布式系统与集群有强烈好奇心,享受"折腾"复杂系统的过程
2.具备自主问题拆解能力,能通过debug/源码
分析定位系统级问题
3.对性能优化有执念,擅长通过数据分析和压力测试发现系统瓶颈技能点要求:
1.熟练掌握Golang/Python/C++至少一门语言
2.深入理解网络协议栈(熟悉RoCEv2、TCP/IP拥塞控制机制者优先)
3.有分布式系统相关开发经验
4.计算机/网络相关专业硕士在读,能保证每日8小时全职工作
加分项
1.参与过HPC或超算中心建设项目
2.发表过网络与分布式系统相关论文
3.熟悉RoCE/NCCL/UCX通信库底层实现
我们能提供
1.直面大规模大模型异构训练集群的实战场景
2.与顶尖AI基础设施团队共事的机会
3.参与行业前沿技术方案落地
4.有竞争力的实习津贴与转正机会
备注:
1.简历请重点突出分布式系统/网络相关项目经
历
2.需在简历中明确标注每周可工作天数及持续时
长
3.优先6个月及以上实习期同学
JOIN
US
阶跃星辰
[实习]大模型智算集群系统研发
上海市 北京市
职位描述岗位职责:
1.参与大规模大模型训练/推理系统的故障诊断与根因分析,构建自动化异常检测系统
2.研发面向大规模异构智算集群(GPU/NPU)的智能管理系统
3.优化RoCE网络协议栈性能,解决大规模 pretrain/post-train/RL等场景下的网络拥塞与稳定性问题
4.开发集群健康度监测、自动化运维等工具链,提升大规模集群运维效率
核心能力要求:
1.对分布式系统与集群有强烈好奇心,享受"折腾"复杂系统的过程
2.具备自主问题拆解能力,能通过debug/源码
分析定位系统级问题
3.对性能优化有执念,擅长通过数据分析和压力测试发现系统瓶颈技能点要求:
1.熟练掌握Golang/Python/C++至少一门语言
2.深入理解网络协议栈(熟悉RoCEv2、TCP/IP拥塞控制机制者优先)
3.有分布式系统相关开发经验
4.计算机/网络相关专业硕士在读,能保证每日8小时全职工作
加分项
1.参与过HPC或超算中心建设项目
2.发表过网络与分布式系统相关论文
3.熟悉RoCE/NCCL/UCX通信库底层实现
我们能提供
1.直面大规模大模型异构训练集群的实战场景
2.与顶尖AI基础设施团队共事的机会
3.参与行业前沿技术方案落地
4.有竞争力的实习津贴与转正机会
备注:
1.简历请重点突出分布式系统/网络相关项目经
历
2.需在简历中明确标注每周可工作天数及持续时
长
3.优先6个月及以上实习期同学
全部评论
接好运
接offer
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享