腾讯(tencent)招聘腾讯云-元宝SRE工程师
招聘职位:
腾讯云-元宝SRE工程师 搜索同类职位
岗位职责:
1.负责元宝的稳定运行,支持开源Deepseek等模型服务训练与部署的多个环节;
2.优化模型的部署流程,包括持续集成、持续部署( CI / CD )和自动化工具;
3.负责集群管理和服务治理,设计容灾方案并实施演练,保障系统高可用和稳定性;
4.负责资源成本管理与规划,优化计算和存储资源,提升机器学习任务的执行效率;
5.分析 AI 硬件应用中的质量性能表现,提供系统技术支持能力,推动改进识别和落地;
6.关注业界前沿技术动态,探索复杂业务系统运维自动化和智能化的技术和方向。
岗位要求:
1.本科及以上学历,3年以上工作经验,有机器学习平台相关开发或运维经验;
2.熟练使用 Go /Python/ Shell 等一种或多种编程语言,善于使用自动化/智能化方法让服务稳定高效;
3.熟悉容器技术,掌握K8s、 Docker 的技术原理,有实际使用和运维经验;
4.深入了解GPU架构与并行计算,掌握CUDA编程实践,熟悉RDMA网络通信技术、NCCL集合通讯,大模型分布式训练与推理架构及模型压缩技术;
5.对于AI大模型应用的构建、部署和维护过程有深入理解;
6.有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7.具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力。
岗位介绍:
在腾讯,优秀的技术运营工程师始终赋能业务,关注技术运营的质量、成本、效率和安全。他们不仅是经验丰富的问题解决者,更是具有全局视角的架构师,通过自动化工具的建设,强力提升平台效能,助力业务发展。
1.负责元宝的稳定运行,支持开源Deepseek等模型服务训练与部署的多个环节;
2.优化模型的部署流程,包括持续集成、持续部署( CI / CD )和自动化工具;
3.负责集群管理和服务治理,设计容灾方案并实施演练,保障系统高可用和稳定性;
4.负责资源成本管理与规划,优化计算和存储资源,提升机器学习任务的执行效率;
5.分析 AI 硬件应用中的质量性能表现,提供系统技术支持能力,推动改进识别和落地;
6.关注业界前沿技术动态,探索复杂业务系统运维自动化和智能化的技术和方向。
岗位要求:
1.本科及以上学历,3年以上工作经验,有机器学习平台相关开发或运维经验;
2.熟练使用 Go /Python/ Shell 等一种或多种编程语言,善于使用自动化/智能化方法让服务稳定高效;
3.熟悉容器技术,掌握K8s、 Docker 的技术原理,有实际使用和运维经验;
4.深入了解GPU架构与并行计算,掌握CUDA编程实践,熟悉RDMA网络通信技术、NCCL集合通讯,大模型分布式训练与推理架构及模型压缩技术;
5.对于AI大模型应用的构建、部署和维护过程有深入理解;
6.有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7.具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力。
岗位介绍:
在腾讯,优秀的技术运营工程师始终赋能业务,关注技术运营的质量、成本、效率和安全。他们不仅是经验丰富的问题解决者,更是具有全局视角的架构师,通过自动化工具的建设,强力提升平台效能,助力业务发展。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!