腾讯(tencent)招聘混元大模型Infra稳定性研发工程师(深圳/北京/上海/杭州)
招聘职位:
混元大模型Infra稳定性研发工程师(深圳/北京/上海/杭州) 搜索同类职位
岗位职责:
1.负责混元infra相关链路稳定性治理、规范建设;
2.联动框架、算力、网络各模块完善关键metric采集;
3.系统性构建故障节点、慢节点检测平台化能力;
4.联合混元一站式建设统一的任务自动续训能力;
5.响应并解决日常混元大模型任务的故障问题。
岗位要求:
1.熟悉Megatron/PyTorch等框架的基本的训练流程;
2.掌握GPU/NPU等工作原理、常见操作命令;
3.熟悉RDMA网络相关硬件特性、熟悉all2all、allGather等集合通信原理;
4.了解docker容器、存储挂载等基础知识;
5.有大规模任务系统故障排查、分析解决经验者优先;
6.良好沟通、团队协作能力。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
1.负责混元infra相关链路稳定性治理、规范建设;
2.联动框架、算力、网络各模块完善关键metric采集;
3.系统性构建故障节点、慢节点检测平台化能力;
4.联合混元一站式建设统一的任务自动续训能力;
5.响应并解决日常混元大模型任务的故障问题。
岗位要求:
1.熟悉Megatron/PyTorch等框架的基本的训练流程;
2.掌握GPU/NPU等工作原理、常见操作命令;
3.熟悉RDMA网络相关硬件特性、熟悉all2all、allGather等集合通信原理;
4.了解docker容器、存储挂载等基础知识;
5.有大规模任务系统故障排查、分析解决经验者优先;
6.良好沟通、团队协作能力。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!