查看更多分享

腾讯(tencent)招聘混元大模型Infra稳定性专家(深圳/北京/上海/杭州)

招聘职位:

混元大模型Infra稳定性专家(深圳/北京/上海/杭州) 搜索同类职位
发布日期:
2025-11-20
工作地点:
职位类型:
全职
职位类别:
技术
来源:
腾讯官网
岗位职责:
1.主导混元大模型基础设施高可用体系建设,负责核心链路稳定性战略规划与落地,定义稳定性 SLA 并推动达成,支撑大规模训练任务持续高效运行;
2.牵头框架、算力、网络、存储等跨模块技术协同,设计并落地全链路关键指标(metric)采集体系,构建覆盖训练全生命周期的可观测性平台,实现问题早发现、早定位;
3.主导智能化故障节点与慢节点检测平台研发,攻克大规模集群下节点异常识别、根因分析难题,建立自动化故障隔离与恢复机制,显著降低故障对训练任务的影响;
4.负责混元一站式平台核心能力 —— 任务自动续训体系的架构设计与技术突破,解决分布式训练状态一致性、断点续训效率优化等关键问题,提升任务容错能力与资源利用率;
5.作为技术专家响应并解决大模型训练中的复杂故障与性能瓶颈问题,沉淀故障处理方法论与最佳实践,形成技术资产并赋能团队;
6.跟踪行业前沿技术动态(如新型加速芯片、分布式训练框架、低延迟网络技术等),主导技术预研与落地,推动基础设施架构持续演进。
岗位要求:
1.熟悉 Megatron-LM、PyTorch 等框架的底层分布式训练原理与训练全流程,深入理解数据并行、模型并行、流水线并行等分布式策略的实现机制;
2.深入掌握 GPU(如 A100/H100)、NPU 等加速硬件的架构设计、工作原理及性能特性,熟练运用 nvtop、nvidia-smi、perf、nsight 等调试与性能分析工具,具备硬件故障深度排查与性能调优经验;
3.精通 RDMA 网络硬件特性(如 RoCE、IB)与协议原理,深入理解 all2all、allGather、reduceScatter 等集合通信算子的底层实现与性能优化策略,有大规模集群网络架构设计、低延迟优化或网络故障根因分析经验者优先;
4.深入理解容器化技术原理,精通 Docker/Kubernetes 容器编排与管理,熟悉分布式存储(如 Ceph、NAS)架构与存储挂载机制,具备大规模容器集群与存储系统运维调优经验;
5.具备丰富的大规模分布式任务系统(如超千卡集群训练任务)故障排查经验,能独立解决跨层(硬件、网络、框架、调度)复杂问题,有大型 AI 训练集群稳定性治理成功案例者优先;
6.具备优秀的技术领导力与跨团队协作能力,能主导复杂技术项目落地;拥有清晰的逻辑思维与表达能力,善于沉淀技术经验并推动团队技术成长;
7.对技术有极致追求,有较强的问题驱动能力与创新意识,了解行业主流大模型训练基础设施技术栈(如 DeepSpeed、FSDP、Slurm 等)者优先。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:

此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 腾讯(tencent)招聘常见问答

腾讯(tencent)招聘工作地点:
深圳
腾讯(tencent)招聘经验要求:
三年以上工作经验