查看更多分享

腾讯(tencent)招聘太极GPU智能调度专家（深圳/北京/上海/杭州）

招聘职位：

太极GPU智能调度专家（深圳/北京/上海/杭州） 搜索同类职位

发布日期：: 2026-01-07
工作地点：: 深圳
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计，通过构建动态资源画像、智能负载预测及精细化调度策略，实现资源利用率显著提升，保障离线训练与在线推理任务的高效稳定运行；
2.深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制，定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点，优化数据流转全链路吞吐量，支撑超大规模模型高效训练；
3.基于 Kubernetes、Docker 等云原生技术栈，主导高可用调度框架的架构设计与核心模块开发，深度适配分布式训练框架（如 Megatron-LM、DeepSpeed）需求，实现任务智能编排、自动化容灾与混合部署能力；深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计，推动大规模训推一体化技术落地；
4.牵头探索混合云资源池化、虚拟化技术（如 KVM / 容器虚拟化）、ARM 异构计算等前沿方向的技术验证与方案落地，制定技术演进路线图，持续推动计算资源调度平台的能力升级与技术创新；
5.沉淀大规模集群调度最佳实践与技术方法论，主导跨团队技术协作（如框架、硬件、网络团队），解决调度领域复杂技术难题，支撑业务高速增长。
岗位要求：
1.熟练掌握 Go/Python/C++ 至少一门编程语言，精通数据结构与算法，具备扎实的底层编程能力与复杂问题拆解能力；
2.精通 Kubernetes 核心组件原理，包括调度器（调度算法、扩展点、Predicates/Priorities）、网络插件（Calico/Flannel）、存储 CSI 插件开发与适配；熟悉容器运行时（containerd/runc）机制，具备万级节点规模 K8s 集群调优、故障诊断与性能优化经验，能有效应对复杂场景下的调度需求；
3.具备深厚的高性能计算技术积累，拥有 OpenMP/MPI 并行程序设计经验，深入理解 RDMA 硬件加速原理（RoCE/IB）与集合通信优化技巧；熟悉 GPU 虚拟化技术（如 vGPU/MIG），能结合硬件特性优化资源分配策略；
4.深入理解主流 AI 框架（PyTorch/TensorFlow）底层分布式训练机制（如 AllReduce/Sharding），熟悉训练加速技术（算子优化、显存管理、混合精度训练），能针对 AI 任务特性设计专属调度策略，实现计算效率最大化；
5.具备大规模集群调度系统性能调优、故障根因分析的丰富经验，能独立解决跨硬件、网络、软件层的复杂技术问题，有超千卡级 GPU 集群调度平台搭建或优化成功案例者优先；
6.具备优秀的技术领导力与跨团队协作能力，能主导复杂技术项目从 0 到 1 落地；拥有清晰的技术视野与逻辑表达能力，善于推动技术标准制定与团队能力沉淀；
7.对云原生、异构计算、混合云等领域技术有深入研究，了解 Slurm、YARN 等传统调度系统，具备大规模 AI 集群调度平台或云原生 AI 平台建设经验者优先。
岗位介绍：
在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神，同时欢迎你一起参与团队愿景、文化和产品方向的探讨。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯(tencent)魔方MCN内容社区生态经理-新星引力方向

下一职位：腾讯(tencent)腾讯云-泛互联网销售-出海方向

腾讯(tencent)招聘太极GPU智能调度专家（深圳/北京/上海/杭州）

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示