腾讯(tencent)招聘AI Infra强化学习工程师-(深圳)or(北京)or

招聘职位：

AI Infra强化学习工程师-(深圳)or(北京)or 搜索同类职位

发布日期：: 2026-06-05
工作地点：: 上海
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.负责LLM RL、Agentic RL强化学习训练框架的设计、开发与性能优化，支撑大规模 RL 算法（如 PPO、DQN、GRPO等）的高效落地；
2.构建分布式训练体系，优化训推异步、partial rollout、数据并行、模型并行、Replay Buffer分布式存储与调度策略，提升 GPU 利用率与训练吞吐；
3.设计并实现 RL 训练全流程工具链：包括环境封装、数据预处理、模型版本管理、训练日志监控、指标可可视化（TensorBoard/Weights & Biases）等；
4.解决 RL 训练中的工程瓶颈：如样本传输延迟、GPU 显存溢出、训练稳定性（梯度爆炸 / 消失）等问题，提供工程化解决方案；
5.与 RL 算法团队紧密协作，理解算法需求并迭代基础设施，适配多场景的训练需求；
6.跟进强化学习与分布式训练领域的前沿技术（如 VERL、rllm、Agentlightning、Ray、Megatron-LM等），并落地到实际系统中。
岗位要求：
1.算机科学、软件工程、人工智能等相关专业，3 年以上工程化开发经验（含 1 年以上 RL 或深度学习基础设施相关经验）；
2.熟练掌握 Python 编程，具备扎实的工程编码能力，熟悉 C/C++ 者优先（底层优化场景）；
3.深入理解深度学习框架（PyTorch），精通分布式训练原理与实践（FSDP/DeepSpeed/Megatron/Ray 等工具使用经验）；
4.具备强化学习基础，理解 RL 训练流程（智能体、环境、奖励机制、经验回放等核心组件），熟悉主流 RL 框架（Ray、VERL、rllm、Agentlightning）者优先；
5.具备复杂系统设计能力，能独立负责基础设施模块的从 0 到 1 搭建；
6.强问题排查能力，能快速定位训练过程中的工程问题（性能、稳定性、资源瓶颈）；
7.良好的跨团队沟通能力，能准确理解算法需求并转化为工程方案；
8.自驱力强，乐于跟进前沿技术，具备快速学习与落地能力。
加分项：
1.有大规模 RL 训练平台（支持千级 GPU 集群、亿级样本回放）搭建经验；
2.熟悉智能体强化学习（Agentic RL）训练的基础设施优化方案；
3.有 GPU 显存 / 算力优化、网络传输优化（如 NCCL 调优）的实际案例；
4.开源项目贡献者（RL 框架、分布式训练工具等相关项目）；
5.具备实际业务场景的 RL 基础设施落地经验。
岗位介绍：
在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神，同时欢迎你一起参与团队愿景、文化和产品方向的探讨。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：哔哩哔哩(bilibili|b站)商业化-自助投放产品经理Leader

下一职位：小红书新媒体传播专家

腾讯(tencent)招聘AI Infra强化学习工程师-(深圳)or(北京)or

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

牛大妈找到相似职位

腾讯(tencent)招聘AI Infra强化学习工程师​-(深圳)or(北京)or

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

牛大妈找到相似职位

腾讯(tencent)招聘AI Infra强化学习工程师-(深圳)or(北京)or