百度AI Infra岗位急招 hc多多 可实习、社招校招、感兴趣可私聊

混合云异构计算工程师
工作职责
-建设业界领先的AI异构算力容器平台,提供 高性能、高稳定性、高易用性的百舸产品,支持AIGC、智算中心、金融
-结合 SOTA 模型训练推理优化原理,深入模 型结构与设计思路,将训练推理优化手段工程 实践化,为客户提供系统性加速方案,提升训 推效率 
-在自研芯片上适配常见大模型,结合深度学 习训推框架特性,开发或调优相关算子,提升模型在芯片上的性能和精度表现,辅助客户进 行芯片选型和应用 
-针对大规模异构集群场景下,探索训推任务 管理、异构资源调度、虚拟化混布、容器存 储、高性能网络、分布式训练和推理等技术的 创新和应用
-探索业界最新技术方向,参与机器学习框架 等开源社区,提升百度混合云AI核心竞争力 
任职资格
-本科及以上学历,有一定程度的计算机相关 专业知识背景
-优秀的编码能力,熟悉Golang/Python/ Java/C/C++至少一项,有扎实的算法及数据 结构基础,有良好的编程习惯。
-熟悉PyTorch,了解Megatron、 DeepSpeed、vLLM、SGLang等大模型训推 框架,做过测试、开发等工作。 
-对GPU芯片架构有一定了解者优先,熟悉 CUDA、OpenCL等高性能计算编程经验优先,有大规模训练推理实践经验者优先
 -具备推理优化的深度实践经验优先: FlashAttention、PD分离、专家并行、负载均 衡、模型压缩(蒸馏/量化)、缓存策略、异 构计算加速 
-具备训练优化的深度实践经验优先:分布式训练、显存优化(如Zero/Offload)、计算通 信Overlap、混合精度、MoE架构调优 
-熟悉Kubernetes工作原理,熟悉调度器、资 源扩展机制、容器运行时、容器网络等技术, 有Kubernetes开发和维护经验优先 
-有独立的分析问题和解决问题的能力,有强 烈的责任心,较强的学习能力和沟通能力
全部评论

相关推荐

7.18 二面 疯狂道歉1.自我介绍2.5层网络分别是什么,讲讲每层什么协议,有什么东西3.MTU包含哪些层的数据,大小一般多大怎么计算4.MTU和MSS区别5.TCP怎么保证可靠的6.建连和断连是怎么样7.为什么挥手四次要比握手多一次8.挥手并不是一定得四次,能在更少次数内实现,请分析可能怎么做的9.既然能挥手次数更少,但是为什么现在主流还是四次10.我假设是一个客户端,我在和服务端通信,我怎么知道发送窗口数据量是多大呢11.现在已经有了一个滑动窗口了,这个滑动窗口大小变化的时候是怎么变化的12.我丢包了,那这个窗口大小是不是就有问题了,有什么处理方案13.你作为一个一端的程序,是怎么知道是网络拥塞还是是链路丢包的14.TCP的拥塞控制是怎么做的15.假设要让你设计一个完整的判断网络拥塞还是链路丢包的协议,你会怎么设计16.现在假设你打开腾讯视频,突然某些(不是所有)视频你看不了了,你会怎么分析+排查+定位+解决这个问题,从app端上的问题-》网络的问题-》服务端的问题各个角度尽量全面的分析17.wireshark你了解吗,怎么在手机上抓包呢18.算了你假设你能在手机上抓包,你怎么从二进制数据排查定位分析这个场景的问题原因呢19.抓包的底层原理是怎么样的,这个包是怎么从操作系统的内核态数据取到的20.HTTP1-3对比,讲讲多路复用在内核是怎么实现的21.QUIC保证udp可靠传输和tcp自身可靠传输的对比22.HTTP和HTTPS区别23.你讲讲HTTPS的完整的方案24.你这种方案的RTT是多少25.有1RTT的HTTPS方案,你了解吗26.你对网络安全了解多少,像DDOS攻击,中间人攻击这些了解吗,有没有一些解决27.k个一组翻转链表GGGGGG
投递腾讯等公司8个岗位
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务