岗位职责: 负责天数大模型推理技术的探索与研发,提升大模型在天数 GPGPU 上的推理性能:1. 负责大模型推理引擎的架构设计与实现;2. 负责大模型 server 的架构设计与实现;3. 负责大模型推理通信库的设计及算法实现;4. 负责大模型相关算子的实现及推理性能的整体优化;5. 调研并支持大模型前沿算法;任职资格:编程基础(必须):1. 熟悉 Python/C++ 编程(11标准及以上),了解常用数据结构及设计模式;2. 熟悉深度学习编程框架,能够使用PyTorch 构建大模型推理 pipeline 并对模型中的核心模块进行高效实现;3. 熟悉 CUDA 编程,了解常见算子的实现及优化手段;大模型推理技术(至少满足两项):1. 有 vLLM、TGI、SGLang、TensorRT-LLM等大模型推理框架的使用或优化经验;2. 了解FlashAttention、PagedAttention、MoE、Chunked Prefill 等大模型核心技术;3. 了解常见的大模型量化算法(如AWQ、GPTQ、SmoothQuant 等)及量化算子的实现;4. 了解大模型通信算子(如Allreduce 等)及计算通信 overlap 实现;5. 有分离式部署(PD 分离)开发经验。感兴趣可以私聊我进一步了解~