腾讯(tencent)招聘企业微信-大模型训练框架开发工程师-AI Infra(成都/北京)

招聘职位:

企业微信-大模型训练框架开发工程师-AI Infra(成都/北京) 搜索同类职位
发布日期:
2026-05-13
工作地点:
职位类型:
全职
职位类别:
技术
来源:
腾讯官网
岗位职责:
1.负责大模型训练/推理场景下的性能分析与优化,重点优化 NVIDIA GPU 及 国产芯片 的计算、显存、通信和调度瓶颈;
2.负责 CUDA / Triton / C++ 高性能算子开发与优化,包括 GEMM、Attention、MoE、KV Cache、通信融合等方向;
3.负责多卡、多机训练/推理性能调优,优化 NCCL、NVLink、NVSwitch、InfiniBand/RDMA 等通信链路;
4.负责基于 NVIDIA GPU 和 国产芯加速卡 的性能调优,提升 GPU 利用率、吞吐、延迟和显存效率;
5.负责 PyTorch、TensorRT-LLM、vLLM、SGLang、Megatron-LM 等框架下的大模型性能优化落地;
6.结合 Nsight Systems、Nsight Compute、CUDA Profiler 等工具进行性能分析,定位并解决性能瓶颈。
岗位要求:
1.熟悉 C/C++、CUDA 或 Triton 编程,有 GPU 算子开发或性能优化经验;
2.熟悉 NVIDIA GPU 架构,理解 SM、Warp、Tensor Core、Shared Memory、Memory Coalescing、Occupancy 等概念;
3.熟悉大模型训练或推理流程,了解 Attention、GEMM、MoE、KV Cache、并行策略等核心模块;
4.熟悉分布式训练/推理优化,理解 TP、PP、DP、EP、NCCL、RDMA 等技术;
5.有实际 profiling 和性能调优经验,能够通过工具定位瓶颈并给出优化方案;
6.有 NVIDIA GPU 或 国产加速卡 实际优化经验者优先;
7.不要求候选人覆盖 AI 全栈所有方向,只要在大模型训练/推理、GPU 算子优化、分布式通信、性能调优、推理框架等任一方向有较深入理解和实践经验,均欢迎投递。
加分项:
1.有 FlashAttention、GEMM、MoE、通信算子、KV Cache 管理等优化经验;
2.有大规模训练或推理集群优化经验,参与过百卡、千卡级任务优先;
3.有 TensorRT-LLM、vLLM、SGLang、Megatron-LM、DeepSpeed 等框架经验;
4.有国产 AI 芯片适配或优化经验者加分;
5.熟悉 GPU 通信拓扑、NVLink/NVSwitch/IB 网络优化者优先。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:

此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 腾讯(tencent)招聘常见问答

腾讯(tencent)招聘工作地点:
广州
腾讯(tencent)招聘经验要求:
三年以上工作经验