腾讯(tencent)招聘元宝-大模型训练工程师
招聘职位:
元宝-大模型训练工程师 搜索同类职位
岗位职责:
1.负责设计和优化LLM训练框架,支撑LLM高性能训练。与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展,推动AI大模型技术的落地与创新:;
2.负责设计和优化LLM训练框架,支撑LLM高性能训练。与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展;
3.系统设计与优化:设计并搭建分布式训练框架,跟平台协作,支持千亿级参数大模型的训练;
4.性能调优与成本优化:针对大模型训练任务,优化框架(如PyTorch/VERL等)的分布式策略,提升训练效率;
5.稳定性与可靠性保障:设计高可用架构,解决训练中断、数据丢失等风险,确保长周期训练任务的稳定性;
6.协作与落地:与算法团队紧密合作,理解模型需求,提供基础设施层面的技术建议;推动开源工具的定制化开发,适配业务场景。
岗位要求:
1.计算机科学、分布式系统或相关专业硕士及以上学历,2年以上大模型Infra领域经验;
2.精通PyTorch,熟悉其底层原理与分布式扩展机制;
3.至少熟练使用一种开源训练框架(VERL, ROLL, ms-swift等),可根据业务需求,熟练开发Megatron, Deepspeed 训练引擎 和 VLLM,sglang推理引擎;
4.熟悉GPU集群架构,了解NVIDIA GPU(如A100/H100)的硬件特性与优化方法;
5.掌握分布式系统原理,熟悉Kubernetes、Slurm、Ray等资源调度框架。
岗位介绍:
在腾讯客户端开发的字典里,“敏捷高效”与“精益求精”并不互斥,追求技术的深度是我们共同的信仰。希望你也能在足够广阔的平台上尽情的施展拳脚。
1.负责设计和优化LLM训练框架,支撑LLM高性能训练。与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展,推动AI大模型技术的落地与创新:;
2.负责设计和优化LLM训练框架,支撑LLM高性能训练。与算法团队、平台团队紧密协作,确保LLM infra的稳定、高性能、可扩展;
3.系统设计与优化:设计并搭建分布式训练框架,跟平台协作,支持千亿级参数大模型的训练;
4.性能调优与成本优化:针对大模型训练任务,优化框架(如PyTorch/VERL等)的分布式策略,提升训练效率;
5.稳定性与可靠性保障:设计高可用架构,解决训练中断、数据丢失等风险,确保长周期训练任务的稳定性;
6.协作与落地:与算法团队紧密合作,理解模型需求,提供基础设施层面的技术建议;推动开源工具的定制化开发,适配业务场景。
岗位要求:
1.计算机科学、分布式系统或相关专业硕士及以上学历,2年以上大模型Infra领域经验;
2.精通PyTorch,熟悉其底层原理与分布式扩展机制;
3.至少熟练使用一种开源训练框架(VERL, ROLL, ms-swift等),可根据业务需求,熟练开发Megatron, Deepspeed 训练引擎 和 VLLM,sglang推理引擎;
4.熟悉GPU集群架构,了解NVIDIA GPU(如A100/H100)的硬件特性与优化方法;
5.掌握分布式系统原理,熟悉Kubernetes、Slurm、Ray等资源调度框架。
岗位介绍:
在腾讯客户端开发的字典里,“敏捷高效”与“精益求精”并不互斥,追求技术的深度是我们共同的信仰。希望你也能在足够广阔的平台上尽情的施展拳脚。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!