美团(meituan)招聘LongCat - 基座 Agent 评测分析研究员
招聘职位:
LongCat - 基座 Agent 评测分析研究员 搜索同类职位
部门介绍:
基础研发平台是美团的核心技术平台,立足于“零售+科技”的战略定位,通过打造人工智能、大数据、云计算、安全等核心技术能力,以及研发效能平台、企业应用平台等公共服务,为业务提供稳定安全、扩展易用、技术领先的平台技术和产品服务。
在这里,我们会参与到最前沿的技术研发和探索;能够接触超规模集群、海量数据,挑战高复杂业务场景,有机会与业界一流的工程师一起并肩前行。
在这里,我们有超强的技术氛围,持续向社区贡献业界实践,加速行业技术发展;我们有完善的互联网学习生态圈,重视底层逻辑和方法论,助力职业生涯的非线性成长。
真诚地邀请你,和我们一起驱动技术发展,创造行业价值。
岗位职责:
随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。
在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。
本岗位涉及的方向包括:
1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。
2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
任职要求:
1. 硕士及以上学历,计算机或相关专业,博士优先。
2. 在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先。
3. 优秀的代码和算法功底,具备工匠精神,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先。
4. 在大模型领域或强化学习领域,主导过大影响力的项目或论文者优先。
5. 出色的问题分析和解决能力,有自主探索、深耕一个领域的决心和定力。
岗位亮点:
1. 美团拥有大量复杂性极高的业务难题,从POC到大规模场景,充满机遇与挑战,兼顾学习和成长。
2. 业界前列的NV GPU和非GPU算力规模,协同算法,AI框架,网络,计算,芯片等多个团队共同建设大模型软、硬件技术底座。
3. 团队拥有同行TOP级别的评测基础能力和相应资源投入,在大模型评测研究领域具备国内头部的竞争力,近年共产出数十篇高质量论文及研究工作。
基础研发平台是美团的核心技术平台,立足于“零售+科技”的战略定位,通过打造人工智能、大数据、云计算、安全等核心技术能力,以及研发效能平台、企业应用平台等公共服务,为业务提供稳定安全、扩展易用、技术领先的平台技术和产品服务。
在这里,我们会参与到最前沿的技术研发和探索;能够接触超规模集群、海量数据,挑战高复杂业务场景,有机会与业界一流的工程师一起并肩前行。
在这里,我们有超强的技术氛围,持续向社区贡献业界实践,加速行业技术发展;我们有完善的互联网学习生态圈,重视底层逻辑和方法论,助力职业生涯的非线性成长。
真诚地邀请你,和我们一起驱动技术发展,创造行业价值。
岗位职责:
随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。
在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。
本岗位涉及的方向包括:
1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。
2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
任职要求:
1. 硕士及以上学历,计算机或相关专业,博士优先。
2. 在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先。
3. 优秀的代码和算法功底,具备工匠精神,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先。
4. 在大模型领域或强化学习领域,主导过大影响力的项目或论文者优先。
5. 出色的问题分析和解决能力,有自主探索、深耕一个领域的决心和定力。
岗位亮点:
1. 美团拥有大量复杂性极高的业务难题,从POC到大规模场景,充满机遇与挑战,兼顾学习和成长。
2. 业界前列的NV GPU和非GPU算力规模,协同算法,AI框架,网络,计算,芯片等多个团队共同建设大模型软、硬件技术底座。
3. 团队拥有同行TOP级别的评测基础能力和相应资源投入,在大模型评测研究领域具备国内头部的竞争力,近年共产出数十篇高质量论文及研究工作。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!