职位名称:算子开发和优化工程师工作地点:杭州职位描述:我们正在寻找经验丰富的 NPU 算子开发工程师。你将负责面向自研 NPU 架构的深度学习算子开发、性能调优、算子编译器设计与实现,并参与大模型在 NPU 平台上的部署与调试工作。该岗位对底层硬件理解、编译器技术及深度学习框架有较高要求,是连接算法、软件与硬件的关键角色。主要职责:1.设计、开发和优化面向 NPU 的高性能深度学习算子(如 Conv、MatMul、Attention、LayerNorm 等);2.参与 NPU 专用算子编译器(如基于 MLIR/TVM)的开发与维护;3.针对大语言模型(LLM)或视觉大模型,在 NPU 上进行端到端部署、性能分析与瓶颈优化;4.与芯片架构师、驱动团队及算法团队紧密协作,确保算子在硬件上的高效执行;5.编写自动化测试用例,保障算子功能正确性与性能稳定性;6.跟踪业界最新 NPU 架构、编译器技术和大模型推理优化方法,持续提升平台能力。任职要求:必备条件:1.计算机科学、电子工程、自动化或相关专业硕士及以上学历;2.精通 C/C++ 编程,熟悉 Python,具备扎实的系统编程和调试能力;3.深入理解深度学习基础算子及其数学原理,有实际算子开发或优化经验;4.熟悉至少一种主流深度学习框架(如 PyTorch、TensorFlow)及其底层执行机制;5.具备 GPU/NPU/TPU 等 AI 加速器上的性能调优经验;加分项:1.了解编译器基本原理,有 LLVM、MLIR、TVM、XLA 等相关项目经验。2.有自研 NPU 或 AI 芯片公司工作经验;3.参与过大模型(如 Llama、Qwen、Stable Diffusion 等)在边缘或端侧设备的部署;4.熟悉 CUDA/OpenCL/HIP 或 NPU 专用指令集、内存层次结构;5.在顶级会议(如 ASPLOS、OSDI、MLSys、NeurIPS、ICLR)发表过相关论文。