美团(meituan)招聘大模型强化学习算法高级工程师
招聘职位:
大模型强化学习算法高级工程师 搜索同类职位
部门介绍:
美团平台为用户的基础产品体验负责,还承担了美团的用户增长、市场和品牌营销以及多条业务线的产品设计职责,建立了融合文字、图片、视频和直播等不同形式的內容生态系统,同时整合地图服务部、客户服务和体验部、企业业务部、网约车业务部等部门,致力于用科技提升美团数亿消费者、近千万商家、骑手、司机和团长的服务体验。美团平台拥有高并发、多业务的复杂场景,为技术深度优化提供了最佳实践可能。这里有简单、讲逻辑、有爱的团队,更是一块理想的实战场地,舞台广阔,欢迎你来尽情施展。
岗位职责:
技术研发与创新
主导 Agentic RL 系统的架构设计和前沿算法研发
将学术前沿(NeurIPS、ICLR 等会议技术方案)快速转化为美团特有的业务价值
针对本地生活场景,设计突破性的奖励函数和学习机制
建立 Agent 系统的 Scaling Law,指导大规模部署的技术路线
项目驱动与落地
推动 Agent RL 系统从研究到生产环节,确保算法的稳定性、可靠性和效率
与产品、工程团队深度合作,将研究成果转化为实际业务收益
团队领导与人才培养
组建和领导一支在 RL 和 Agent 领域的高水平研究团队
制定团队的技术战略和发展规划
指导团队成员的学术输出和技术成长
培养团队的工程实践能力,建立高效的算法开发和迭代流程
任职要求:
必要条件
学历与专业背景
硕士及以上学历,计算机科学、人工智能、机器学习或相关专业
具有 5 年以上强化学习方向的研究或工程经验
RL 深厚积累
扎实的 RL 理论基础,熟悉分层强化学习(Hierarchical RL)、多智能体 RL、逆强化学习等高级方向
具备在复杂环境中设计和优化 RL 算法的实践经验
了解 RL 的 Scaling Law,具备对大规模 RL 系统的性能分析能力
LLM 与 Agent 系统经验
深刻理解 LLM 的能力与局限,能够设计 LLM + RL 融合方案
关键要求:有构建或参与 Agentic RL 系统的实际经验,如:
开发过基于 LLM 的 Agent 决策框架
研究过 LLM 与 RL 的联合优化问题
在 LLM 驱动的复杂任务中应用过 RL 算法
理解 Agent 系统的关键组件:LLM 推理、规划、反思、记忆机制等
工程与编程能力
熟练掌握 Python,能够高效实现和优化复杂算法
熟悉 PyTorch 或 TensorFlow 等深度学习框架,具备从零构建 RL 训练系统的能力
具备良好的代码工程实践,能够设计可维护、可扩展的算法系统
具备分布式训练、离线优化、大规模模型推理等工程经验
加分项
在 NeurIPS、ICLR、ICML、ACL、EMNLP、IJCAI 等顶级会议发表过 RL、Agent 系统、LLM 应用相关论文
具有本地生活领域(外卖、到店、旅游等)的从业经验或深入理解
开发过业界广泛使用的 RL 或 Agent 框架
岗位亮点:
美团正在打造面向生活服务全场景的 Agent AI 系统,寻找在 RL 与 LLM 融合领域有深厚积累的技术领导者。你将主导构建智能决策系统,使 Agent 能够在外卖、到店、旅游等真实复杂场景下自主规划、学习和优化,推动公司 AI 能力的前沿进展。
美团平台为用户的基础产品体验负责,还承担了美团的用户增长、市场和品牌营销以及多条业务线的产品设计职责,建立了融合文字、图片、视频和直播等不同形式的內容生态系统,同时整合地图服务部、客户服务和体验部、企业业务部、网约车业务部等部门,致力于用科技提升美团数亿消费者、近千万商家、骑手、司机和团长的服务体验。美团平台拥有高并发、多业务的复杂场景,为技术深度优化提供了最佳实践可能。这里有简单、讲逻辑、有爱的团队,更是一块理想的实战场地,舞台广阔,欢迎你来尽情施展。
岗位职责:
技术研发与创新
主导 Agentic RL 系统的架构设计和前沿算法研发
将学术前沿(NeurIPS、ICLR 等会议技术方案)快速转化为美团特有的业务价值
针对本地生活场景,设计突破性的奖励函数和学习机制
建立 Agent 系统的 Scaling Law,指导大规模部署的技术路线
项目驱动与落地
推动 Agent RL 系统从研究到生产环节,确保算法的稳定性、可靠性和效率
与产品、工程团队深度合作,将研究成果转化为实际业务收益
团队领导与人才培养
组建和领导一支在 RL 和 Agent 领域的高水平研究团队
制定团队的技术战略和发展规划
指导团队成员的学术输出和技术成长
培养团队的工程实践能力,建立高效的算法开发和迭代流程
任职要求:
必要条件
学历与专业背景
硕士及以上学历,计算机科学、人工智能、机器学习或相关专业
具有 5 年以上强化学习方向的研究或工程经验
RL 深厚积累
扎实的 RL 理论基础,熟悉分层强化学习(Hierarchical RL)、多智能体 RL、逆强化学习等高级方向
具备在复杂环境中设计和优化 RL 算法的实践经验
了解 RL 的 Scaling Law,具备对大规模 RL 系统的性能分析能力
LLM 与 Agent 系统经验
深刻理解 LLM 的能力与局限,能够设计 LLM + RL 融合方案
关键要求:有构建或参与 Agentic RL 系统的实际经验,如:
开发过基于 LLM 的 Agent 决策框架
研究过 LLM 与 RL 的联合优化问题
在 LLM 驱动的复杂任务中应用过 RL 算法
理解 Agent 系统的关键组件:LLM 推理、规划、反思、记忆机制等
工程与编程能力
熟练掌握 Python,能够高效实现和优化复杂算法
熟悉 PyTorch 或 TensorFlow 等深度学习框架,具备从零构建 RL 训练系统的能力
具备良好的代码工程实践,能够设计可维护、可扩展的算法系统
具备分布式训练、离线优化、大规模模型推理等工程经验
加分项
在 NeurIPS、ICLR、ICML、ACL、EMNLP、IJCAI 等顶级会议发表过 RL、Agent 系统、LLM 应用相关论文
具有本地生活领域(外卖、到店、旅游等)的从业经验或深入理解
开发过业界广泛使用的 RL 或 Agent 框架
岗位亮点:
美团正在打造面向生活服务全场景的 Agent AI 系统,寻找在 RL 与 LLM 融合领域有深厚积累的技术领导者。你将主导构建智能决策系统,使 Agent 能够在外卖、到店、旅游等真实复杂场景下自主规划、学习和优化,推动公司 AI 能力的前沿进展。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!