腾讯(tencent)招聘高性能计算工程师
招聘职位:
高性能计算工程师 搜索同类职位
岗位职责:
1.超大规模LLM性能工程: 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计,负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地;
2.低比特与稀疏模型优化: 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地,平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案;
3.统一与多模态架构: 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构,以支撑自回归生成任务,并前瞻性地解决多模态大模型(如视觉-语言模型)的协同推理部署挑战;
4.异构算力与国产化适配: 主导推理引擎在国产AI芯片(如昇腾、海光、天数等)平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制,实现跨异构架构的算力自主可控;
5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层,主导设计和实现LLM特有高性能算子。 重点包括:高性能Attention Kernel、矩阵乘法(GEMM)的深度定制与融合、KV Cache读写优化等关键算子;
6.具备深入理解和利用硬件指令集架构(ISA)和微架构(Microarchitecture)的能力, 通过 CUDA/Triton 或国产芯片底层编程语言,进行SIMD/SIMT指令优化、指令级并行(ILP)及寄存器重用等,将LLM推理性能推向硬件理论极限。
岗位要求:
1.计算机、人工智能、软件工程等相关专业硕士及以上学历;
2.具备5年以上 AI 系统、高性能计算或底层系统开发经验;
3.具备大规模、生产级大语言模型(LLM)在线推理系统从零到一的架构设计与优化实战经验;
4.精通 C++/Python,具备深厚的系统编程功底,对并行计算、内存管理和性能调优有深入的系统性理解;
5.深入理解 Transformer 架构,具备 vLLM, TensorRT-LLM, LightLLM 等主流推理框架的内核级/源码级深度优化经验;对 KV Cache、低比特量化、连续批处理等核心技术有架构决策能力;
6.具备设计和主导实现高并发、超低延迟分布式服务系统的能力;熟悉 Docker/Kubernetes 等云原生部署运维技术。
加分项:
1.有昇腾、海光、天数等国产AI芯片平台上的LLM模型移植、底层算子开发或推理引擎适配的战略级成功经验;
2.具备多卡/多机通信(NCCL/HCCL/RDMA)的底层原理理解与架构级优化经验,有通过定制通信原语解决大规模LLM模型通信瓶颈的核心技术输出;
3.对主流 AI 芯片的指令集架构(ISA)和微架构有深入理解和实战经验, 能够直接通过底层汇编或高阶编程接口(如 PTX, SASS, TVM)进行极致的算子级性能调优;
4.具备使用 CUDA/Triton 或国产 AI 芯片的底层编程语言(如 Ascend C)进行高性能算子(如 Attention, GEMM)开发与优化的丰富实战经验;
5.熟悉 MLIR, LLVM 等编译器技术,对 NVIDIA/AMD/昇腾/海光/天数 等主流 AI 芯片的底层内核优化有体系化的知识和实践;
6.有千亿参数大模型成功部署和极致性能优化的平台化建设经验;
7.在 MLSys, NeurIPS, ICML, ICLR 等顶级会议发表过 AI 系统或推理优化相关论文,或拥有相关核心技术专利。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
1.超大规模LLM性能工程: 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计,负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地;
2.低比特与稀疏模型优化: 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地,平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案;
3.统一与多模态架构: 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构,以支撑自回归生成任务,并前瞻性地解决多模态大模型(如视觉-语言模型)的协同推理部署挑战;
4.异构算力与国产化适配: 主导推理引擎在国产AI芯片(如昇腾、海光、天数等)平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制,实现跨异构架构的算力自主可控;
5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层,主导设计和实现LLM特有高性能算子。 重点包括:高性能Attention Kernel、矩阵乘法(GEMM)的深度定制与融合、KV Cache读写优化等关键算子;
6.具备深入理解和利用硬件指令集架构(ISA)和微架构(Microarchitecture)的能力, 通过 CUDA/Triton 或国产芯片底层编程语言,进行SIMD/SIMT指令优化、指令级并行(ILP)及寄存器重用等,将LLM推理性能推向硬件理论极限。
岗位要求:
1.计算机、人工智能、软件工程等相关专业硕士及以上学历;
2.具备5年以上 AI 系统、高性能计算或底层系统开发经验;
3.具备大规模、生产级大语言模型(LLM)在线推理系统从零到一的架构设计与优化实战经验;
4.精通 C++/Python,具备深厚的系统编程功底,对并行计算、内存管理和性能调优有深入的系统性理解;
5.深入理解 Transformer 架构,具备 vLLM, TensorRT-LLM, LightLLM 等主流推理框架的内核级/源码级深度优化经验;对 KV Cache、低比特量化、连续批处理等核心技术有架构决策能力;
6.具备设计和主导实现高并发、超低延迟分布式服务系统的能力;熟悉 Docker/Kubernetes 等云原生部署运维技术。
加分项:
1.有昇腾、海光、天数等国产AI芯片平台上的LLM模型移植、底层算子开发或推理引擎适配的战略级成功经验;
2.具备多卡/多机通信(NCCL/HCCL/RDMA)的底层原理理解与架构级优化经验,有通过定制通信原语解决大规模LLM模型通信瓶颈的核心技术输出;
3.对主流 AI 芯片的指令集架构(ISA)和微架构有深入理解和实战经验, 能够直接通过底层汇编或高阶编程接口(如 PTX, SASS, TVM)进行极致的算子级性能调优;
4.具备使用 CUDA/Triton 或国产 AI 芯片的底层编程语言(如 Ascend C)进行高性能算子(如 Attention, GEMM)开发与优化的丰富实战经验;
5.熟悉 MLIR, LLVM 等编译器技术,对 NVIDIA/AMD/昇腾/海光/天数 等主流 AI 芯片的底层内核优化有体系化的知识和实践;
6.有千亿参数大模型成功部署和极致性能优化的平台化建设经验;
7.在 MLSys, NeurIPS, ICML, ICLR 等顶级会议发表过 AI 系统或推理优化相关论文,或拥有相关核心技术专利。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!