查看更多分享

美团(meituan)招聘大模型强化学习算法高级工程师

招聘职位：

大模型强化学习算法高级工程师 搜索同类职位

发布日期：: 2025-11-24
工作地点：: 北京市
职位类型：: 全职
职位类别：: 技术类算法
来源：: 美团官网

部门介绍：
美团平台为用户的基础产品体验负责，还承担了美团的用户增长、市场和品牌营销以及多条业务线的产品设计职责，建立了融合文字、图片、视频和直播等不同形式的內容生态系统，同时整合地图服务部、客户服务和体验部、企业业务部、网约车业务部等部门，致力于用科技提升美团数亿消费者、近千万商家、骑手、司机和团长的服务体验。美团平台拥有高并发、多业务的复杂场景，为技术深度优化提供了最佳实践可能。这里有简单、讲逻辑、有爱的团队，更是一块理想的实战场地，舞台广阔，欢迎你来尽情施展。
岗位职责：
技术研发与创新

主导 Agentic RL 系统的架构设计和前沿算法研发

将学术前沿（NeurIPS、ICLR 等会议技术方案）快速转化为美团特有的业务价值

针对本地生活场景，设计突破性的奖励函数和学习机制

建立 Agent 系统的 Scaling Law，指导大规模部署的技术路线

项目驱动与落地

推动 Agent RL 系统从研究到生产环节，确保算法的稳定性、可靠性和效率

与产品、工程团队深度合作，将研究成果转化为实际业务收益

团队领导与人才培养

组建和领导一支在 RL 和 Agent 领域的高水平研究团队

制定团队的技术战略和发展规划

指导团队成员的学术输出和技术成长

培养团队的工程实践能力，建立高效的算法开发和迭代流程
任职要求：
必要条件

学历与专业背景

硕士及以上学历，计算机科学、人工智能、机器学习或相关专业

具有 5 年以上强化学习方向的研究或工程经验

RL 深厚积累

扎实的 RL 理论基础，熟悉分层强化学习（Hierarchical RL）、多智能体 RL、逆强化学习等高级方向

具备在复杂环境中设计和优化 RL 算法的实践经验

了解 RL 的 Scaling Law，具备对大规模 RL 系统的性能分析能力

LLM 与 Agent 系统经验

深刻理解 LLM 的能力与局限，能够设计 LLM + RL 融合方案

关键要求：有构建或参与 Agentic RL 系统的实际经验，如：

开发过基于 LLM 的 Agent 决策框架

研究过 LLM 与 RL 的联合优化问题

在 LLM 驱动的复杂任务中应用过 RL 算法

理解 Agent 系统的关键组件：LLM 推理、规划、反思、记忆机制等

工程与编程能力

熟练掌握 Python，能够高效实现和优化复杂算法

熟悉 PyTorch 或 TensorFlow 等深度学习框架，具备从零构建 RL 训练系统的能力

具备良好的代码工程实践，能够设计可维护、可扩展的算法系统

具备分布式训练、离线优化、大规模模型推理等工程经验

加分项

在 NeurIPS、ICLR、ICML、ACL、EMNLP、IJCAI 等顶级会议发表过 RL、Agent 系统、LLM 应用相关论文

具有本地生活领域（外卖、到店、旅游等）的从业经验或深入理解

开发过业界广泛使用的 RL 或 Agent 框架
岗位亮点：
美团正在打造面向生活服务全场景的 Agent AI 系统，寻找在 RL 与 LLM 融合领域有深厚积累的技术领导者。你将主导构建智能决策系统，使 Agent 能够在外卖、到店、旅游等真实复杂场景下自主规划、学习和优化，推动公司 AI 能力的前沿进展。

前往官网投递

免责声明：

此信息由美团官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)水果产地统采

下一职位：小红书Product Engineer产品工程师-基础产品（欢迎客户端同学投递）

美团(meituan)招聘大模型强化学习算法高级工程师

招聘职位：

FAQ 美团(meituan)招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示