美团(meituan)招聘LongCat - 数据策略与数据科学算法研究员
招聘职位:
LongCat - 数据策略与数据科学算法研究员 搜索同类职位
部门介绍:
基础研发平台是美团的核心技术平台,立足于“零售+科技”的战略定位,通过打造人工智能、大数据、云计算、安全等核心技术能力,以及研发效能平台、企业应用平台等公共服务,为业务提供稳定安全、扩展易用、技术领先的平台技术和产品服务。
在这里,我们会参与到最前沿的技术研发和探索;能够接触超规模集群、海量数据,挑战高复杂业务场景,有机会与业界一流的工程师一起并肩前行。
在这里,我们有超强的技术氛围,持续向社区贡献业界实践,加速行业技术发展;我们有完善的互联网学习生态圈,重视底层逻辑和方法论,助力职业生涯的非线性成长。
真诚地邀请你,和我们一起驱动技术发展,创造行业价值。
岗位职责:
随着模型架构逐渐收敛、算力成本持续上升,高质量数据策略正在成为提升基座模型 scaling efficiency 和能力上限的核心杠杆。聚焦大规模预训练数据的理解、筛选、配比、合成与系统化迭代,致力于建立数据分布、训练动态与模型能力之间的可解释映射,并将其转化为可预测、可干预、可扩展的数据策略和数据系统,持续提升模型的 token efficiency、scaling efficiency 与智能上限。
工作内容包括但不限于:
1、研究数据来源、质量、多样性、难度、覆盖度与模型能力之间的关系,建立“数据分布—训练动态—模型效果”的分析与归因框架。
2、探索面向预训练的数据价值建模方法,包括自动化质量评估、样本筛选、语义去重、污染检测、覆盖度建模、长序列数据组织与高价值 token 挖掘。
3、研究 Data Mixture、动态配比、课程学习和多阶段训练策略,分析不同类型数据在不同模型规模、训练阶段和能力维度上的边际收益,提升 token efficiency 与 scaling efficiency。
4、探索合成数据、蒸馏数据、模型自生成数据和反馈数据在预训练中的有效使用方式,研究合成数据的有效性、多样性保持、退化机制和训练配比策略。
5、构建可复现、可扩展的大规模数据处理与实验闭环,将数据构建、训练验证、能力评测、数据诊断和策略更新结合起来,形成面向基础模型持续迭代的数据飞轮。
6、研究并缓解预训练数据中的污染、偏差、重复、低质、隐私、安全和合规风险,提升数据策略的可靠性、可控性和可持续性。
任职要求:
1、熟悉 Python 和 PyTorch 等深度学习框架,具备扎实的机器学习、深度学习、概率统计和算法基础。
2、熟悉大语言模型或多模态基础模型训练流程,理解预训练数据、训练动态、模型能力和评估体系之间的关系;有大规模预训练、Data Mixture、合成数据或模型评估经验者优先。
3、对预训练数据有系统性理解,熟悉数据清洗、去重、污染检测、质量评估、覆盖度建模、长序列组织、合成 / 蒸馏数据和数据配比等关键问题。
3、具备优秀的实验设计和分析能力,能够围绕数据与模型能力提出 hypothesis,设计可复现实验,并基于训练动态、评测结果和模型行为分析实验结论。
岗位亮点:
团队资源丰富,技术审美优秀,参与前沿AI项目,共同探索数据策略与数据科学。
基础研发平台是美团的核心技术平台,立足于“零售+科技”的战略定位,通过打造人工智能、大数据、云计算、安全等核心技术能力,以及研发效能平台、企业应用平台等公共服务,为业务提供稳定安全、扩展易用、技术领先的平台技术和产品服务。
在这里,我们会参与到最前沿的技术研发和探索;能够接触超规模集群、海量数据,挑战高复杂业务场景,有机会与业界一流的工程师一起并肩前行。
在这里,我们有超强的技术氛围,持续向社区贡献业界实践,加速行业技术发展;我们有完善的互联网学习生态圈,重视底层逻辑和方法论,助力职业生涯的非线性成长。
真诚地邀请你,和我们一起驱动技术发展,创造行业价值。
岗位职责:
随着模型架构逐渐收敛、算力成本持续上升,高质量数据策略正在成为提升基座模型 scaling efficiency 和能力上限的核心杠杆。聚焦大规模预训练数据的理解、筛选、配比、合成与系统化迭代,致力于建立数据分布、训练动态与模型能力之间的可解释映射,并将其转化为可预测、可干预、可扩展的数据策略和数据系统,持续提升模型的 token efficiency、scaling efficiency 与智能上限。
工作内容包括但不限于:
1、研究数据来源、质量、多样性、难度、覆盖度与模型能力之间的关系,建立“数据分布—训练动态—模型效果”的分析与归因框架。
2、探索面向预训练的数据价值建模方法,包括自动化质量评估、样本筛选、语义去重、污染检测、覆盖度建模、长序列数据组织与高价值 token 挖掘。
3、研究 Data Mixture、动态配比、课程学习和多阶段训练策略,分析不同类型数据在不同模型规模、训练阶段和能力维度上的边际收益,提升 token efficiency 与 scaling efficiency。
4、探索合成数据、蒸馏数据、模型自生成数据和反馈数据在预训练中的有效使用方式,研究合成数据的有效性、多样性保持、退化机制和训练配比策略。
5、构建可复现、可扩展的大规模数据处理与实验闭环,将数据构建、训练验证、能力评测、数据诊断和策略更新结合起来,形成面向基础模型持续迭代的数据飞轮。
6、研究并缓解预训练数据中的污染、偏差、重复、低质、隐私、安全和合规风险,提升数据策略的可靠性、可控性和可持续性。
任职要求:
1、熟悉 Python 和 PyTorch 等深度学习框架,具备扎实的机器学习、深度学习、概率统计和算法基础。
2、熟悉大语言模型或多模态基础模型训练流程,理解预训练数据、训练动态、模型能力和评估体系之间的关系;有大规模预训练、Data Mixture、合成数据或模型评估经验者优先。
3、对预训练数据有系统性理解,熟悉数据清洗、去重、污染检测、质量评估、覆盖度建模、长序列组织、合成 / 蒸馏数据和数据配比等关键问题。
3、具备优秀的实验设计和分析能力,能够围绕数据与模型能力提出 hypothesis,设计可复现实验,并基于训练动态、评测结果和模型行为分析实验结论。
岗位亮点:
团队资源丰富,技术审美优秀,参与前沿AI项目,共同探索数据策略与数据科学。
免责声明:
此信息由美团官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“美团官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!