查看更多分享

腾讯(tencent)招聘太极GPU智能调度专家(深圳/北京/上海/杭州)

招聘职位:

太极GPU智能调度专家(深圳/北京/上海/杭州) 搜索同类职位
发布日期:
2026-01-07
工作地点:
职位类型:
全职
职位类别:
技术
来源:
腾讯官网
岗位职责:
1.主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行;
2.深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练;
3.基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地;
4.牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新;
5.沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长。
岗位要求:
1.熟练掌握 Go/Python/C++ 至少一门编程语言,精通数据结构与算法,具备扎实的底层编程能力与复杂问题拆解能力;
2.精通 Kubernetes 核心组件原理,包括调度器(调度算法、扩展点、Predicates/Priorities)、网络插件(Calico/Flannel)、存储 CSI 插件开发与适配;熟悉容器运行时(containerd/runc)机制,具备万级节点规模 K8s 集群调优、故障诊断与性能优化经验,能有效应对复杂场景下的调度需求;
3.具备深厚的高性能计算技术积累,拥有 OpenMP/MPI 并行程序设计经验,深入理解 RDMA 硬件加速原理(RoCE/IB)与集合通信优化技巧;熟悉 GPU 虚拟化技术(如 vGPU/MIG),能结合硬件特性优化资源分配策略;
4.深入理解主流 AI 框架(PyTorch/TensorFlow)底层分布式训练机制(如 AllReduce/Sharding),熟悉训练加速技术(算子优化、显存管理、混合精度训练),能针对 AI 任务特性设计专属调度策略,实现计算效率最大化;
5.具备大规模集群调度系统性能调优、故障根因分析的丰富经验,能独立解决跨硬件、网络、软件层的复杂技术问题,有超千卡级 GPU 集群调度平台搭建或优化成功案例者优先;
6.具备优秀的技术领导力与跨团队协作能力,能主导复杂技术项目从 0 到 1 落地;拥有清晰的技术视野与逻辑表达能力,善于推动技术标准制定与团队能力沉淀;
7.对云原生、异构计算、混合云等领域技术有深入研究,了解 Slurm、YARN 等传统调度系统,具备大规模 AI 集群调度平台或云原生 AI 平台建设经验者优先。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:

此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 腾讯(tencent)招聘常见问答

腾讯(tencent)招聘工作地点:
深圳
腾讯(tencent)招聘经验要求:
三年以上工作经验