痴心的代码渣渣准备进厂 - 个人主页动态 - 牛客网

发布(2) 评论在招职位刷题收藏

2025-12-30 17:38

谦合益邦_编译器与算子开发工程师

招算子开发和优化工程师！

职位名称：算子开发和优化工程师工作地点：杭州职位描述：我们正在寻找经验丰富的 NPU 算子开发工程师。你将负责面向自研 NPU 架构的深度学习算子开发、性能调优、算子编译器设计与实现，并参与大模型在 NPU 平台上的部署与调试工作。该岗位对底层硬件理解、编译器技术及深度学习框架有较高要求，是连接算法、软件与硬件的关键角色。主要职责：1.设计、开发和优化面向 NPU 的高性能深度学习算子（如 Conv、MatMul、Attention、LayerNorm 等）；2.参与 NPU 专用算子编译器（如基于 MLIR/TVM）的开发与维护；3.针对大语言模型（LLM）或视觉大模型，在 NPU 上进行端到端部署、性能分析与瓶颈优化；4.与芯片架构师、驱动团队及算法团队紧密协作，确保算子在硬件上的高效执行；5.编写自动化测试用例，保障算子功能正确性与性能稳定性；6.跟踪业界最新 NPU 架构、编译器技术和大模型推理优化方法，持续提升平台能力。任职要求：必备条件：1.计算机科学、电子工程、自动化或相关专业硕士及以上学历；2.精通 C/C++ 编程，熟悉 Python，具备扎实的系统编程和调试能力；3.深入理解深度学习基础算子及其数学原理，有实际算子开发或优化经验；4.熟悉至少一种主流深度学习框架（如 PyTorch、TensorFlow）及其底层执行机制；5.具备 GPU/NPU/TPU 等 AI 加速器上的性能调优经验；加分项：1.了解编译器基本原理，有 LLVM、MLIR、TVM、XLA 等相关项目经验。2.有自研 NPU 或 AI 芯片公司工作经验；3.参与过大模型（如 Llama、Qwen、Stable Diffusion 等）在边缘或端侧设备的部署；4.熟悉 CUDA/OpenCL/HIP 或 NPU 专用指令集、内存层次结构；5.在顶级会议（如 ASPLOS、OSDI、MLSys、NeurIPS、ICLR）发表过相关论文。

0 点赞评论收藏

分享

2025-12-30 17:33

谦合益邦_编译器与算子开发工程师

招AI图编译器开发工程师！

职位名称：图编译器开发工程师工作地点：杭州职位描述：我们正在寻找一位对深度学习编译器和 AI 加速器有深刻理解的图编译器开发与优化工程师。你将负责构建和优化从 PyTorch 到自研 NPU 的端到端图编译流程，确保模型在转换后精度无损、性能卓越、资源高效。工作涵盖前端图提取、中间表示（IR）优化、NPU 算子映射、量化支持、图调度及性能调优，是连接算法模型与底层硬件的关键桥梁。主要职责：1.设计并实现从 PyTorch（含 Dynamo/TorchScript）到内部 IR 的高保真图提取与转换流程；2.开发面向 NPU 架构的图级优化策略（如算子融合、内存复用、常量折叠、布局转换等）；3.实现 NPU 原生算子的注册、匹配与替换机制，确保语义等价与数值精度一致；4.支持 FP16/BF16/FP8/FP4等混合精度推理，保障量化前后模型精度对齐；5.与 NPU 算子团队协作，定义高效算子接口，推动图-算子协同优化；6.构建自动化测试框架，覆盖图转换正确性、数值精度、性能回归等维度；7.针对大语言模型（LLM）、视觉模型等典型 workload 进行端到端编译 pipeline 优化。任职要求：必备条件：1.计算机科学、电子工程或相关专业硕士及以上学历；2.精通 C++ 和 Python，具备扎实的系统软件开发能力；3.深入理解深度学习计算图、执行调度等核心概念；4.有 PyTorch 图捕获（如 TorchDynamo）相关开发经验；5.熟悉主流深度学习编译器框架（如 TVM、MLIR）；6.具备模型精度调试与数值一致性验证经验（如使用 torch.allclose、逐层比对等）；7.了解 NPU/GPU 等 AI 加速器的基本架构与执行模型。加分项：1.有从 PyTorch 到专用硬件（如 NPU、TPU）的完整编译部署经验；2.熟悉 MLIR 方言设计、Pass 开发及 Lowering 流程；3.参与过大模型（如 Llama、Qwen、Stable Diffusion）的编译或部署优化；4.了解量化感知训练（QAT）或后训练量化（PTQ）流程；5.在 MLSys、OSDI、ASPLOS、NeurIPS Systems Track 等会议发表过相关成果。不光是图编译哦，有其他岗位的也可以联系我！

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务