avatar-decorate
SLam_Pan level
获赞
266
粉丝
330
关注
0
看过 TA
3451
同济大学
2015
量化分析
IP属地:广东
量化猎头顾问slam
私信
关注
头像
2025-12-30 11:29
同济大学 量化分析
0 点赞 评论 收藏
分享
头像
2025-12-17 09:56
同济大学 量化分析
量化私募急招分布式机器学习平台专家 全职岗位职责:1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练;2.主导分布式训练相关的技术选型,比如适配业务的并行策略、存储方案等;3.持续分析大规模集群的训练性能,解决数据读取、显存、通信等核心瓶颈,同 时跟踪前沿分布式训练技术,推动平台架构持续演进;4.对接算法团队,配合算法团队适配不同的机器学习任务,并做针对性的优化。5.监控系统运行状态,识别潜在风险,建立预防机制以减少故障发生。职位要求1.计算机科学、电子工程、软件工程或相关理工科本科及以上学历,5 年以上工 作经验2.熟悉Python/Golang/C++中至少一种语言,掌握主流深度学习框架(如 PyTorch)3.熟悉在分布式环境中快速定位故障根源,如网络延迟、节点失效或数据同步问 题,具备日志分析、性能剖析和调试工具使用经验(如 Prometheus、Grafana)4.熟悉机器学习训练全链路工具(如 Kubernetes+Slurm 混合调度、机器学习平 台)、熟悉分布式训练框架(如 DeepSpeed、Megatron)、掌握 CUDA 性能调优或者 GPU 架构等。5.有大规模 AI 训练集群(1000+节点)项目的设计、实施管理经验6.具备金融行业或大型互联网公司 HPC 运维经验7.具备较强的责任心和团队合作意识、具有良好的学习能力和分析解决问题能力8.精通分布式队列系统实现原理,有 Slurm/YARN、RAY 等资源管理系统经验者优先
0 点赞 评论 收藏
分享
头像
2025-12-11 10:47
同济大学 量化分析
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务