腾讯招聘训推加速工程师-北京
招聘职位:
训推加速工程师-北京 搜索同类职位
岗位职责:
1.负责大规模语言模型(LLM)分布式训练系统的性能优化,包括数据并行、模型并行、流水线并行(Pipeline Parallelism)等策略的工程实现与效率提升;
2.基于NVIDIA/AMD GPU硬件特性(如NVLink、InfiniBand互联、显存带宽优化),设计并优化分布式训练框架(如Megatron-LM、ColossalAI)的核心模块;
3.解决大模型训练中的显存瓶颈、通信延迟、计算负载不均衡等问题,开发高效显存管理、梯度压缩、混合精度训练等技术;
4.针对特定场景(如DeepSeek系列模型),优化DualPipe等定制化训练流水线,实现端到端训练吞吐量提升;
5.跟踪LLM训练技术前沿(如3D并行、ZeRO优化、动态计算调度),推动训练框架的迭代与创新。
岗位要求:
1.熟悉NVIDIA CUDA/AMD ROCm编程,具备GPU内核优化经验(如PTX指令调优、显存带宽优化);
2.精通Megatron-LM、DeepSpeed或Colossal-AI等分布式训练框架,有千亿参数模型并行训练实战经验;
3.熟悉大模型训练全流程优化(数据加载、梯度累积、通信压缩等),能通过Profiling工具定位性能瓶颈;
4.优先条件,熟悉异步强化学习训练框架(如VeRL、AReaL)、参与过Agentic RL训练优化,或者有DeepSeek系列模型优化经验(如DualPipe调度、MLA注意力优化)、参与过相关开源项目贡献等经验者 优先。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
1.负责大规模语言模型(LLM)分布式训练系统的性能优化,包括数据并行、模型并行、流水线并行(Pipeline Parallelism)等策略的工程实现与效率提升;
2.基于NVIDIA/AMD GPU硬件特性(如NVLink、InfiniBand互联、显存带宽优化),设计并优化分布式训练框架(如Megatron-LM、ColossalAI)的核心模块;
3.解决大模型训练中的显存瓶颈、通信延迟、计算负载不均衡等问题,开发高效显存管理、梯度压缩、混合精度训练等技术;
4.针对特定场景(如DeepSeek系列模型),优化DualPipe等定制化训练流水线,实现端到端训练吞吐量提升;
5.跟踪LLM训练技术前沿(如3D并行、ZeRO优化、动态计算调度),推动训练框架的迭代与创新。
岗位要求:
1.熟悉NVIDIA CUDA/AMD ROCm编程,具备GPU内核优化经验(如PTX指令调优、显存带宽优化);
2.精通Megatron-LM、DeepSpeed或Colossal-AI等分布式训练框架,有千亿参数模型并行训练实战经验;
3.熟悉大模型训练全流程优化(数据加载、梯度累积、通信压缩等),能通过Profiling工具定位性能瓶颈;
4.优先条件,熟悉异步强化学习训练框架(如VeRL、AReaL)、参与过Agentic RL训练优化,或者有DeepSeek系列模型优化经验(如DualPipe调度、MLA注意力优化)、参与过相关开源项目贡献等经验者 优先。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!