腾讯(tencent)招聘腾讯云-元宝SRE工程师

招聘职位:

腾讯云-元宝SRE工程师 搜索同类职位
发布日期:
2026-06-03
工作地点:
职位类型:
全职
职位类别:
技术
来源:
腾讯官网
岗位职责:
1.负责元宝的稳定运行,支持开源Deepseek等模型服务训练与部署的多个环节;
2.优化模型的部署流程,包括持续集成、持续部署( CI / CD )和自动化工具;
3.负责集群管理和服务治理,设计容灾方案并实施演练,保障系统高可用和稳定性;
4.负责资源成本管理与规划,优化计算和存储资源,提升机器学习任务的执行效率;
5.分析 AI 硬件应用中的质量性能表现,提供系统技术支持能力,推动改进识别和落地;
6.关注业界前沿技术动态,探索复杂业务系统运维自动化和智能化的技术和方向。
岗位要求:
1.本科及以上学历,3年以上工作经验,有机器学习平台相关开发或运维经验;
2.熟练使用 Go /Python/ Shell 等一种或多种编程语言,善于使用自动化/智能化方法让服务稳定高效;
3.熟悉容器技术,掌握K8s、 Docker 的技术原理,有实际使用和运维经验;
4.深入了解GPU架构与并行计算,掌握CUDA编程实践,熟悉RDMA网络通信技术、NCCL集合通讯,大模型分布式训练与推理架构及模型压缩技术;
5.对于AI大模型应用的构建、部署和维护过程有深入理解;
6.有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7.具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力。
岗位介绍:
在腾讯,优秀的技术运营工程师始终赋能业务,关注技术运营的质量、成本、效率和安全。他们不仅是经验丰富的问题解决者,更是具有全局视角的架构师,通过自动化工具的建设,强力提升平台效能,助力业务发展。
免责声明:

此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 腾讯(tencent)招聘常见问答

腾讯(tencent)招聘工作地点:
北京
腾讯(tencent)招聘经验要求:
三年以上工作经验