查看更多分享

腾讯(tencent)招聘混元大模型Infra稳定性专家（深圳/北京/上海/杭州）

招聘职位：

混元大模型Infra稳定性专家（深圳/北京/上海/杭州） 搜索同类职位

发布日期：: 2025-11-20
工作地点：: 深圳
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.主导混元大模型基础设施高可用体系建设，负责核心链路稳定性战略规划与落地，定义稳定性 SLA 并推动达成，支撑大规模训练任务持续高效运行；
2.牵头框架、算力、网络、存储等跨模块技术协同，设计并落地全链路关键指标（metric）采集体系，构建覆盖训练全生命周期的可观测性平台，实现问题早发现、早定位；
3.主导智能化故障节点与慢节点检测平台研发，攻克大规模集群下节点异常识别、根因分析难题，建立自动化故障隔离与恢复机制，显著降低故障对训练任务的影响；
4.负责混元一站式平台核心能力 —— 任务自动续训体系的架构设计与技术突破，解决分布式训练状态一致性、断点续训效率优化等关键问题，提升任务容错能力与资源利用率；
5.作为技术专家响应并解决大模型训练中的复杂故障与性能瓶颈问题，沉淀故障处理方法论与最佳实践，形成技术资产并赋能团队；
6.跟踪行业前沿技术动态（如新型加速芯片、分布式训练框架、低延迟网络技术等），主导技术预研与落地，推动基础设施架构持续演进。
岗位要求：
1.熟悉 Megatron-LM、PyTorch 等框架的底层分布式训练原理与训练全流程，深入理解数据并行、模型并行、流水线并行等分布式策略的实现机制；
2.深入掌握 GPU（如 A100/H100）、NPU 等加速硬件的架构设计、工作原理及性能特性，熟练运用 nvtop、nvidia-smi、perf、nsight 等调试与性能分析工具，具备硬件故障深度排查与性能调优经验；
3.精通 RDMA 网络硬件特性（如 RoCE、IB）与协议原理，深入理解 all2all、allGather、reduceScatter 等集合通信算子的底层实现与性能优化策略，有大规模集群网络架构设计、低延迟优化或网络故障根因分析经验者优先；
4.深入理解容器化技术原理，精通 Docker/Kubernetes 容器编排与管理，熟悉分布式存储（如 Ceph、NAS）架构与存储挂载机制，具备大规模容器集群与存储系统运维调优经验；
5.具备丰富的大规模分布式任务系统（如超千卡集群训练任务）故障排查经验，能独立解决跨层（硬件、网络、框架、调度）复杂问题，有大型 AI 训练集群稳定性治理成功案例者优先；
6.具备优秀的技术领导力与跨团队协作能力，能主导复杂技术项目落地；拥有清晰的逻辑思维与表达能力，善于沉淀技术经验并推动团队技术成长；
7.对技术有极致追求，有较强的问题驱动能力与创新意识，了解行业主流大模型训练基础设施技术栈（如 DeepSpeed、FSDP、Slurm 等）者优先。
岗位介绍：
在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神，同时欢迎你一起参与团队愿景、文化和产品方向的探讨。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯(tencent)海外知名射击端游-主营销

下一职位：美团(meituan)Keeta组织发展OD岗

腾讯(tencent)招聘混元大模型Infra稳定性专家（深圳/北京/上海/杭州）

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示