腾讯(tencent)招聘混元大模型推理研发专家(深圳/北京/上海/杭州)
招聘职位:
混元大模型推理研发专家(深圳/北京/上海/杭州) 搜索同类职位
岗位职责:
1.深度协同算法团队,主导深度学习算法端到端推理系统的架构设计与落地实践,聚焦高吞吐、低延时核心目标,攻克大模型推理工程化落地关键技术瓶颈;
2.针对大模型推理全链路进行性能瓶颈深度剖析,通过算子优化、量化策略、资源调度等手段实现推理吞吐最大化;建立性能 - 成本评估体系,制定资源利用率极致优化方案,实现推理成本可控化;
3.主导大模型推理框架底层架构优化,完善框架功能模块(如动态批处理、推理缓存、容错机制);构建工程化能力体系,提升框架易用性(API 设计、配置化能力)与可调试性(日志系统、性能埋点、调试工具链),支撑大规模推理服务稳定迭代。
岗位要求:
1.精通 C/C++、Python 编程语言,具备深厚的计算机体系结构功底(深入理解 CPU/GPU 缓存机制、指令流水线、内存层次结构)或大型分布式系统开发经验;精通系统性能调优方法论,熟练使用 perf、gprof、nsight 等调优工具进行底层瓶颈定位;
2.精通 CUDA 核心编程模型(线程束调度、内存 coalescing、共享内存优化),熟悉 OpenCL 等异构编程框架;深入理解 cublas、cudnn、cutlass 等 GPU 加速库底层实现原理与调优策略,能基于硬件特性定制化优化计算逻辑;
3.具备 TensorRT/TensorRT-LLM/FasterTransformer/vllm/sglang 等推理引擎深度实践经验,主导过基于上述引擎的大模型推理系统定制化开发与性能调优;精通推理引擎底层优化技术(算子融合、量化策略、动态批处理、KV 缓存优化);
4.精通 Transformer 等大模型核心算子(Attention、FFN、LayerNorm)底层实现机制与性能优化方法;熟悉深度学习模型从训练到推理的全链路转化逻辑,具备大模型训推一体化问题定位(如精度漂移、性能衰减)与优化经验者优先;
5.精通 CPU/GPU 异构计算架构下数据传输瓶颈(PCIe 带宽、内存墙、缓存利用率)分析方法;具备服务器端 AI 芯片(如 NVIDIA H100/A100、昇腾 910)推理性能调优经验,熟悉硬件特性与软件适配策略者优先;
6.精通分布式推理核心技术(张量并行、流水线并行、ZeRO 优化、动态负载均衡),熟悉分布式通信框架(NCCL、MPI)底层原理;主导过千亿级以上参数大模型分布式推理系统部署、性能调优与稳定性保障,具备超大模型推理成本优化实践经验者优先。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
1.深度协同算法团队,主导深度学习算法端到端推理系统的架构设计与落地实践,聚焦高吞吐、低延时核心目标,攻克大模型推理工程化落地关键技术瓶颈;
2.针对大模型推理全链路进行性能瓶颈深度剖析,通过算子优化、量化策略、资源调度等手段实现推理吞吐最大化;建立性能 - 成本评估体系,制定资源利用率极致优化方案,实现推理成本可控化;
3.主导大模型推理框架底层架构优化,完善框架功能模块(如动态批处理、推理缓存、容错机制);构建工程化能力体系,提升框架易用性(API 设计、配置化能力)与可调试性(日志系统、性能埋点、调试工具链),支撑大规模推理服务稳定迭代。
岗位要求:
1.精通 C/C++、Python 编程语言,具备深厚的计算机体系结构功底(深入理解 CPU/GPU 缓存机制、指令流水线、内存层次结构)或大型分布式系统开发经验;精通系统性能调优方法论,熟练使用 perf、gprof、nsight 等调优工具进行底层瓶颈定位;
2.精通 CUDA 核心编程模型(线程束调度、内存 coalescing、共享内存优化),熟悉 OpenCL 等异构编程框架;深入理解 cublas、cudnn、cutlass 等 GPU 加速库底层实现原理与调优策略,能基于硬件特性定制化优化计算逻辑;
3.具备 TensorRT/TensorRT-LLM/FasterTransformer/vllm/sglang 等推理引擎深度实践经验,主导过基于上述引擎的大模型推理系统定制化开发与性能调优;精通推理引擎底层优化技术(算子融合、量化策略、动态批处理、KV 缓存优化);
4.精通 Transformer 等大模型核心算子(Attention、FFN、LayerNorm)底层实现机制与性能优化方法;熟悉深度学习模型从训练到推理的全链路转化逻辑,具备大模型训推一体化问题定位(如精度漂移、性能衰减)与优化经验者优先;
5.精通 CPU/GPU 异构计算架构下数据传输瓶颈(PCIe 带宽、内存墙、缓存利用率)分析方法;具备服务器端 AI 芯片(如 NVIDIA H100/A100、昇腾 910)推理性能调优经验,熟悉硬件特性与软件适配策略者优先;
6.精通分布式推理核心技术(张量并行、流水线并行、ZeRO 优化、动态负载均衡),熟悉分布式通信框架(NCCL、MPI)底层原理;主导过千亿级以上参数大模型分布式推理系统部署、性能调优与稳定性保障,具备超大模型推理成本优化实践经验者优先。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!