量化私募急招分布式机器学习平台专家 全职 岗位职责: 1.负责规划设计高性能分布式机器学习训练平台

量化私募急招分布式机器学习平台专家 全职
岗位职责:
1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练; 
2.主导分布式训练相关的技术选型,比如适配业务的并行策略、存储方案等;
3.持续分析大规模集群的训练性能,解决数据读取、显存、通信等核心瓶颈,同 时跟踪前沿分布式训练技术,推动平台架构持续演进; 
4.对接算法团队,配合算法团队适配不同的机器学习任务,并做针对性的优化。
5.监控系统运行状态,识别潜在风险,建立预防机制以减少故障发生。
职位要求
1.计算机科学、电子工程、软件工程或相关理工科本科及以上学历,5 年以上工 作经验
2.熟悉Python/Golang/C++中至少一种语言,掌握主流深度学习框架(如 PyTorch) 
3.熟悉在分布式环境中快速定位故障根源,如网络延迟、节点失效或数据同步问 题,具备日志分析、性能剖析和调试工具使用经验(如 Prometheus、Grafana) 
4.熟悉机器学习训练全链路工具(如 Kubernetes+Slurm 混合调度、机器学习平 台)、熟悉分布式训练框架(如 DeepSpeed、Megatron)、掌握 CUDA 性能调优或者 GPU 架构等。
5.有大规模 AI 训练集群(1000+节点)项目的设计、实施管理经验 
6.具备金融行业或大型互联网公司 HPC 运维经验 
7.具备较强的责任心和团队合作意识、具有良好的学习能力和分析解决问题能力
8.精通分布式队列系统实现原理,有 Slurm/YARN、RAY 等资源管理系统经验者优先
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务