查看更多分享

腾讯(tencent)招聘元宝-大模型训练工程师

招聘职位：

元宝-大模型训练工程师 搜索同类职位

发布日期：: 2026-03-05
工作地点：: 深圳
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.负责设计和优化LLM训练框架，支撑LLM高性能训练。与算法团队、平台团队紧密协作，确保LLM infra的稳定、高性能、可扩展，推动AI大模型技术的落地与创新：；
2.负责设计和优化LLM训练框架，支撑LLM高性能训练。与算法团队、平台团队紧密协作，确保LLM infra的稳定、高性能、可扩展；
3.系统设计与优化：设计并搭建分布式训练框架，跟平台协作，支持千亿级参数大模型的训练；
4.性能调优与成本优化：针对大模型训练任务，优化框架（如PyTorch/VERL等）的分布式策略，提升训练效率；
5.稳定性与可靠性保障：设计高可用架构，解决训练中断、数据丢失等风险，确保长周期训练任务的稳定性；
6.协作与落地：与算法团队紧密合作，理解模型需求，提供基础设施层面的技术建议；推动开源工具的定制化开发，适配业务场景。
岗位要求：
1.计算机科学、分布式系统或相关专业硕士及以上学历，2年以上大模型Infra领域经验；
2.精通PyTorch，熟悉其底层原理与分布式扩展机制；
3.至少熟练使用一种开源训练框架（VERL， ROLL， ms-swift等），可根据业务需求，熟练开发Megatron， Deepspeed 训练引擎和 VLLM，sglang推理引擎；
4.熟悉GPU集群架构，了解NVIDIA GPU（如A100/H100）的硬件特性与优化方法；
5.掌握分布式系统原理，熟悉Kubernetes、Slurm、Ray等资源调度框架。
岗位介绍：
在腾讯客户端开发的字典里，“敏捷高效”与“精益求精”并不互斥，追求技术的深度是我们共同的信仰。希望你也能在足够广阔的平台上尽情的施展拳脚。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯(tencent)腾讯游戏-后台开发工程师-新星引力计划

下一职位：小红书「蒲公英」- B端产品经理