饿了么(ele)招聘淘宝闪购-用户增长-Agent工程专家-北京

招聘职位:

淘宝闪购-用户增长-Agent工程专家-北京 搜索同类职位
发布日期:
2026-04-24
工作地点:
职位类型:
全职
职位类别:
技术类-开发
学历要求:
本科
来源:
饿了么(ele)
职位描述:
聚焦用户增长(User Growth)核心业务场景,利用强化学习(RL)与生成式 AI 技术推动业务智能化升级。你将在真实的亿级流量场景中,参与从算法策略到工程落地的全链路建设,解决广告竞价、创意生成、用户生命周期管理等高价值问题。

岗位职责:
1. RL 出价与竞价策略
参与基于强化学习的广告出价系统建设,将静态出价升级为多步序列决策范式,构建 State → 推理 → Action → Reward 的完整闭环
探索 Decision Transformer / Offline RL 等前沿方法在 RTB 竞价场景的落地
2. RL 训练与推理工程
参与 RL / LLM RL 训练框架建设,支撑 PPO、DQN、GRPO 等算法的高效落地,优化训推异步与分布式训练策略
解决 RL 训练中的工程瓶颈(样本传输延迟、显存优化、训练稳定性),跟进 VERL、Ray 等前沿框架并结合业务落地
3. AIGC 创意与 Agent 工程
设计和实现 AIGC 驱动的规模化创意供给体系,覆盖文案生成、图片创意、视频素材等多模态内容生产,构建生成 → 风控审核 → 语义去重 → 效果反馈的全链路闭环
构建面向用增业务的 AI Agent 系统(创意 Agent、广告优化师 Agent 等),设计多智能体协同架构与工具集成方案
4. AI Coding 与研发效能
深度使用 AI 编程工具(Cursor、Claude Code 等)驱动日常研发,探索 AI 辅助代码生成、代码审查、自动化测试等场景的最佳实践
参与 AI Coding 全链路覆盖的推进,提升团队 AI 辅助代码占比与研发效能
5. 在线引擎与实验体系
参与用增引擎体系(RTA / RTB / 创意供给引擎)核心模块开发,优化高并发系统性能与稳定性
建设特征工程、样本回流与 AB 实验体系,支撑策略的科学评估
任职要求:
1. 专业能力
RL / 决策智能:理解 MDP、策略梯度、Q-Learning、Actor-Critic 等核心概念,了解 Offline RL 或 Model-based RL;能将业务问题建模为 RL 问题
工程能力:精通 Python,熟练掌握 Java 或 C/C++ 至少一种;熟悉 PyTorch,了解分布式训练原理
生成式 AI:理解 LLM 的能力与局限,熟悉 Prompt Engineering、RAG、Agent 框架等应用范式;对多模态内容生成有基本认知
AI Coding:AI 编程工具重度玩家,具备极强的 Prompt 编写与调优能力,理解如何让 AI 写出生产级代码
2. 能力特质
能快速啃透前沿论文并转化为工程代码
有独立完成的开源项目或个人 Demo,展现极客精神
强自驱力,主动探索边界

加分项:
1.有 RL 在广告/推荐/竞价场景的落地经验,了解 Reward Shaping、OPE
2.了解 Decision Transformer、RLHF、DPO 等 RL × 生成式交叉方向
3.熟悉分布式 RL 训练框架(Ray、VERL、DeepSpeed),有大规模训推优化经验
4.有 AIGC 内容生成落地经验(文案/图片/视频),熟悉扩散模型或多模态生成技术
5.具备 GPU 异构计算基础,了解 CUDA 编程与性能优化
6.有 AI Agent 实际落地经验(多智能体编排、RAG 系统、工具集成),有可展示的项目成果
7.在 GitHub 上有高质量 AI/RL 项目或技术影响力
免责声明:

此信息由饿了么(ele) (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“饿了么(ele)”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!