饿了么(ele)招聘淘宝闪购-用户增长-Agent工程专家-北京

招聘职位：

淘宝闪购-用户增长-Agent工程专家-北京 搜索同类职位

发布日期：: 2026-04-24
工作地点：: 北京
职位类型：: 全职
职位类别：: 技术类-开发
学历要求：: 本科
来源：: 饿了么(ele)

职位描述：
聚焦用户增长（User Growth）核心业务场景，利用强化学习（RL）与生成式 AI 技术推动业务智能化升级。你将在真实的亿级流量场景中，参与从算法策略到工程落地的全链路建设，解决广告竞价、创意生成、用户生命周期管理等高价值问题。

岗位职责：
1. RL 出价与竞价策略
参与基于强化学习的广告出价系统建设，将静态出价升级为多步序列决策范式，构建 State → 推理 → Action → Reward 的完整闭环
探索 Decision Transformer / Offline RL 等前沿方法在 RTB 竞价场景的落地
2. RL 训练与推理工程
参与 RL / LLM RL 训练框架建设，支撑 PPO、DQN、GRPO 等算法的高效落地，优化训推异步与分布式训练策略
解决 RL 训练中的工程瓶颈（样本传输延迟、显存优化、训练稳定性），跟进 VERL、Ray 等前沿框架并结合业务落地
3. AIGC 创意与 Agent 工程
设计和实现 AIGC 驱动的规模化创意供给体系，覆盖文案生成、图片创意、视频素材等多模态内容生产，构建生成 → 风控审核 → 语义去重 → 效果反馈的全链路闭环
构建面向用增业务的 AI Agent 系统（创意 Agent、广告优化师 Agent 等），设计多智能体协同架构与工具集成方案
4. AI Coding 与研发效能
深度使用 AI 编程工具（Cursor、Claude Code 等）驱动日常研发，探索 AI 辅助代码生成、代码审查、自动化测试等场景的最佳实践
参与 AI Coding 全链路覆盖的推进，提升团队 AI 辅助代码占比与研发效能
5. 在线引擎与实验体系
参与用增引擎体系（RTA / RTB / 创意供给引擎）核心模块开发，优化高并发系统性能与稳定性
建设特征工程、样本回流与 AB 实验体系，支撑策略的科学评估
任职要求：
1. 专业能力
RL / 决策智能：理解 MDP、策略梯度、Q-Learning、Actor-Critic 等核心概念，了解 Offline RL 或 Model-based RL；能将业务问题建模为 RL 问题
工程能力：精通 Python，熟练掌握 Java 或 C/C++ 至少一种；熟悉 PyTorch，了解分布式训练原理
生成式 AI：理解 LLM 的能力与局限，熟悉 Prompt Engineering、RAG、Agent 框架等应用范式；对多模态内容生成有基本认知
AI Coding：AI 编程工具重度玩家，具备极强的 Prompt 编写与调优能力，理解如何让 AI 写出生产级代码
2. 能力特质
能快速啃透前沿论文并转化为工程代码
有独立完成的开源项目或个人 Demo，展现极客精神
强自驱力，主动探索边界

加分项：
1.有 RL 在广告/推荐/竞价场景的落地经验，了解 Reward Shaping、OPE
2.了解 Decision Transformer、RLHF、DPO 等 RL × 生成式交叉方向
3.熟悉分布式 RL 训练框架（Ray、VERL、DeepSpeed），有大规模训推优化经验
4.有 AIGC 内容生成落地经验（文案/图片/视频），熟悉扩散模型或多模态生成技术
5.具备 GPU 异构计算基础，了解 CUDA 编程与性能优化
6.有 AI Agent 实际落地经验（多智能体编排、RAG 系统、工具集成），有可展示的项目成果
7.在 GitHub 上有高质量 AI/RL 项目或技术影响力

前往官网投递

免责声明：

此信息由饿了么(ele) (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“饿了么(ele)”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯(tencent)元宝-AIGC策划产品专家

下一职位：小红书媒体性能优化工程师

饿了么(ele)招聘淘宝闪购-用户增长-Agent工程专家-北京

招聘职位：

FAQ 饿了么(ele)招聘常见问答

牛大妈找到相似职位