阿里云 AI Infra 实习生招聘

阿里云专有云iaas软硬结合AI创新team招实习啦,暑期实习可转正,简历直达leader
核心方向,老板超nice,工作氛围好不卷,作息1075,base 北京/杭州/上海
目前方向:
1.  阿里自研ppu芯片 软硬协同优化
2.  agentsandbox kata/firecracker/gvisor
3. AI模型镜像链路加速,系统性能优化
4. AI稳定性工程闭环

对以上感兴趣的小伙伴们 直接+VVVV~X caoyifan1a2b

---以下为官网 jd
1.AI 训推系统级性能优化与组件化交付
面向 LLM/VLM/VLA、智驾等场景,围绕训练与推理全链路开展性能分析与优化落地,产出可复用的软件组件/算子库/解决方案.
典型优化方向:计算与访存瓶颈、显存/内存管理、KV Cache、长上下文、并行策略(TP/PP/DP/EP)、通信与网络(AllReduce/AllGather/AllToAll、RDMA)、数据与 I/O(DataLoader、checkpoint、存储带宽)。

2.云原生 AI Runtime 与隔离(Kata / runD / Sandbox Runtime)
负责 GPU 在 Kata Containers/沙箱容器中的高性能、安全隔离与可用性建设:GPU 直通/虚拟化、驱动与设备插件集成、容器镜像与运行时兼容。
参与 sandbox runtime(containerd/CRI 体系)相关能力建设:资源隔离(cgroup/namespace/NUMA)、启动时延优化、稳定性与故障恢复、可观测性(metrics/tracing/logging)。
与 Kubernetes 侧生态协同(Device Plugin、RuntimeClass、调度/拓扑亲和、弹性伸缩等),提升多租户环境下 GPU 利用率与 QoS。

3.软硬件协同与异构算力适配
深入结合硬件特性(计算单元、HBM/缓存层次、PCIe/NVLink/互联、编译器/运行时)制定协同优化方案,推进在训练/推理/云原生运行时侧的落地。
构建 microbenchmark、性能模型与回归体系,快速定位瓶颈并指导组件演进。

4.稳定性与工程闭环
建设端到端与算子级 benchmark、自动化 profiling、CI 回归与精度/稳定性守护。
定位并解决复杂问题:hang/crash、OOM、性能抖动、通信异常、GPU 设备异常、虚拟化/隔离环境下的兼容性问题。

#实习# #内推# #大厂实习# #ai infra# #cuda# #容器# #推理加速# #推理引擎#
全部评论

相关推荐

想踩缝纫机的小师弟练...:不理解你们这些人,要放记录就把对方公司名字放出来啊。不然怎么网暴他们
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务