饿了么(ele)招聘淘宝闪购-算法工程专家-营销超算-杭州
招聘职位:
淘宝闪购-算法工程专家-营销超算-杭州 搜索同类职位
职位描述:
1.负责LLM RL、Agentic RL强化学习训练框架的设计、开发与性能优化,支撑大规模 RL算法(如 PPO、DQN、GRPO等)的高效落地;
2.构建分布式训练体系,优化训推异步、partial rollout、数据并行、模型并行、Replay Buffer分布式存储与调度策略,提升GPU 利用率与训练吞吐;
3.设计并实现 RL 训练全流程工具链:包括环境封装、数据预处理、模型版本管理、训练日志监控、指标可视化(TensorBoard/Weights & Biases)等;
4.解决 RL 训练中的工程瓶颈:如样本传输延迟、GPU 显存溢出、训练稳定性(梯度爆炸/消失)等问题,提供工程化解决方案;
5.与 RL 算法团队紧密协作,理解算法需求,迭代基础设施,适配多场景的训练需求;
6.跟进强化学习与分布式训练领域的前沿技术(如 VERL、rllm、Agentlightning、Ray、Megatron-LM等),并落地到实际系统中。
任职要求:
1.计算机科学、软件工程、人工智能等相关专业,3年以上工程化开发经验(含1年以上 RL 或深度学习基础设施相关经验);
2.熟练掌握 Python编程,具备扎实的工程编码能力,熟悉 C/C++ 者优先(底层优化场景);
3.深入理解深度学习框架(PyTorch),精通分布式训练原理与实践(FSDP/DeepSpeed/Megatron/Ray 等工具使用经验);
4.具备强化学习基础,理解 RL 训练流程(智能体、环境、奖励机制、经验回放等核心组件),熟悉主流 RL 框架(Ray、VERL、rllm、Agentlightning)者优先;
5.具备复杂系统设计能力,能独立负责基础设施模块的从0到1搭建;
6.强问题排查能力,能快速定位训练过程中的工程问题(性能、稳定性、资源瓶颈);
7.良好的跨团队沟通能力,能准确理解算法需求并转化为工程方案;
8.自驱力强,乐于跟进前沿技术,具备快速学习与落地能力。
1.负责LLM RL、Agentic RL强化学习训练框架的设计、开发与性能优化,支撑大规模 RL算法(如 PPO、DQN、GRPO等)的高效落地;
2.构建分布式训练体系,优化训推异步、partial rollout、数据并行、模型并行、Replay Buffer分布式存储与调度策略,提升GPU 利用率与训练吞吐;
3.设计并实现 RL 训练全流程工具链:包括环境封装、数据预处理、模型版本管理、训练日志监控、指标可视化(TensorBoard/Weights & Biases)等;
4.解决 RL 训练中的工程瓶颈:如样本传输延迟、GPU 显存溢出、训练稳定性(梯度爆炸/消失)等问题,提供工程化解决方案;
5.与 RL 算法团队紧密协作,理解算法需求,迭代基础设施,适配多场景的训练需求;
6.跟进强化学习与分布式训练领域的前沿技术(如 VERL、rllm、Agentlightning、Ray、Megatron-LM等),并落地到实际系统中。
任职要求:
1.计算机科学、软件工程、人工智能等相关专业,3年以上工程化开发经验(含1年以上 RL 或深度学习基础设施相关经验);
2.熟练掌握 Python编程,具备扎实的工程编码能力,熟悉 C/C++ 者优先(底层优化场景);
3.深入理解深度学习框架(PyTorch),精通分布式训练原理与实践(FSDP/DeepSpeed/Megatron/Ray 等工具使用经验);
4.具备强化学习基础,理解 RL 训练流程(智能体、环境、奖励机制、经验回放等核心组件),熟悉主流 RL 框架(Ray、VERL、rllm、Agentlightning)者优先;
5.具备复杂系统设计能力,能独立负责基础设施模块的从0到1搭建;
6.强问题排查能力,能快速定位训练过程中的工程问题(性能、稳定性、资源瓶颈);
7.良好的跨团队沟通能力,能准确理解算法需求并转化为工程方案;
8.自驱力强,乐于跟进前沿技术,具备快速学习与落地能力。
免责声明:
此信息由饿了么(ele) (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“饿了么(ele)”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!