百度sre提前批,不影响秋招
🏢公司名称:百度
💻招聘岗位:
- 智能云IaaS-SRE工程师
- 岗位介绍:
- Site Reliability Engineer,负责百度公司大规模分布式系统及各类云服务可靠、稳定、高效运行
- 参与百度智能云系统和各类产品架构设计,主导服务可用性相关平台/自动化系统的实现
- 设计研发智能云规模化运维的技术解决方案,包括服务器生命周期管理、高效交付、故障预测、成本管理等
- 关注业界前沿技术动态,熟悉os/kernel、openstack、kvm、分布式存储、虚拟化网络等相关技术,贡献与引领业界技术趋势
岗位要求:
- Linux操作系统熟练,Shell熟练;具备较好的计算机网络和体系结构基础
- 熟练掌握Python/Go等至少一种主流编程语言
- 对云计算、虚拟机等技术有浓厚的兴趣优先,了解OpenStack、虚拟化网络、KVM、分布式存储等相关技术优先
- 具有良好的逻辑思维和分析能力,热衷解决问题、追求极致;具有强烈的责任心、进取心、Ownership;
- 专业不限,但更倾向于计算机、通信、数学等理工学科的应届毕业生
- 智能云大模型-SRE工程师 岗位介绍:
- 负责超过千卡/万卡基础设施(GPU/高性能网络等)的稳定性保障,并提升训练/推理效率和效果
- 负责模型训练/推理过程中的硬件、算法、框架等故障定位,并推动对应大模型运维能力平台产品化建设
- 负责大模型训练任务/推理服务、基础设施的运维监控数据建设,建设产品可用性大盘
- 关注业界动态,使用AI技术解决大模型稳定性问题,提升训练/推理任务可靠性
岗位要求:
- 感兴趣/了解至少一种通用深度学习模型结构,如CNN、transformer等
- 感兴趣/了解至少一种业界主流大模型,Deepseek/ChatGPT/LLaMA/Qwen等LLM或VLM模型结构
- 感兴趣/了解至少一种主流训推框架,paddlepaddle/pyorch/megatron/deepspeed等训练框架,Sglang或Vllm推理框架
- 感兴趣/了解GPU架构、cuda编程基础、大模型常用的并行策略和集合通信场景
- 熟练掌握Python/Golang/Shell等至少一种主流编程语言
- 具有良好的逻辑思维和分析能力,热衷解决问题、追求极致;具有强烈的责任心、进取心、Ownership
- 有K8S云原生平台的相关系统运维开发和稳定性建设经验者优先,有模型预训练或微调、推理服务部署实践经验者优先,有云产品/平台使用经验者优先
🌟投递邮箱:sunyuning@baidu.com
💰简历:1、 邮件标题:[ 姓名 ]_[ 学校 ]_[ 岗位名称 ]_校招简历
2、投递邮件附件:附个人简历,需注意简历文件名称格式与邮箱标题格式保持一致
#提前批##运维##大厂##百度##内推#
查看12道真题和解析