查看更多分享

腾讯(tencent)招聘大模型异构芯片推理适配调优工程师（深圳/北京/上海/杭州）

招聘职位：

大模型异构芯片推理适配调优工程师（深圳/北京/上海/杭州） 搜索同类职位

发布日期：: 2026-07-15
工作地点：: 北京
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
基于多种异构芯片，GPGPU/NPU/XPU等，协同算法和业务团队，主导分布式异构推理系统的开发设计与落地实现，聚焦低延时、高吞吐目标，使能多种异构芯片算力和攻克大规模推理系统工程化落地关键技术，主要包括；
1.模型适配：针对业界主流（如DeepSeek，Qwenxilie)和自研大模型进行多芯片适配；
2.精度调优：解决适配过程中模块和端到端精度异常现象；
3.系统性能调优：针对推理全链路进行性能Profiling剖析，确保关键算子、系统调度等状态，并通过系统工程优化等手段实现最优性能目标；
4.推理框架/引擎架构优化：针对多芯片架构关键特性，在推理框架层面进行专项优化，确保最优效果；
5.核心算子开发/调优：针对推理关键算子和场景，结合多种芯片微架构、硬件特点，进行针对性优化，提升底层计算/通信效率。
岗位要求：
1.熟练掌握C/C++、Python编程语言，具备良好的coding和调试能力，具备计算机体系架构功底和大型分布式系统开发调优经验优先；
2.熟悉和调优NVIDIA GPU和各种AI芯片至少一种，包括AMD、海光/摩尔/沐曦/ GPGPU架构、Ascend、寒武纪、昆仑芯等，两种以上优先；
3.熟悉和调优GPU和各种AI芯片底层算子编程方式至少一种，包括CUDA、Triton、TileLang、AscendC、BangC等，两种以上优先；
4.精通和具备vllm/sglang 等推理引擎深度实践经验，参与过基于上述引擎的大模型推理系统定制化开发与性能调优；精通推理引擎底层优化技术；
5.熟悉和了解业界主流大模型如DeepSeek、Qwen系列模型结构，常见切分方式，有针对性的分布式推理调优原理分析和实践经验优先；
6.熟悉和了解模型适配异构芯片的流程，具备适配经验，有端到端完成模型推理适配，精度/性能调优者优先；
7.熟悉和了解集合通信原理和常见互联形态，如NCCL、NVLink、RoCE等；
8.针对大EP通算融合算子Dispatch/Combine 开发调优者优先；
9.针对关键算子，Attention MLA/GQA/, Sparse Attention DSA, Linear Attetnion等，GEMM/Group GEMM，有深入分析和最佳优化实践者优先；
10.熟悉和了解PD分离架构，有异构PD分离实践经验优先。
岗位介绍：
在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神，同时欢迎你一起参与团队愿景、文化和产品方向的探讨。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)渠道销售运营

下一职位：小红书「电商 CRM」- 产品经理

腾讯(tencent)招聘大模型异构芯片推理适配调优工程师（深圳/北京/上海/杭州）

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示