腾讯(tencent)招聘混元大模型后训练算法工程师/专家-coding
招聘职位:
混元大模型后训练算法工程师/专家-coding 搜索同类职位
岗位职责:
1.负责大模型后训练(SFT+RL)阶段 Coding(代码生成与理解)类数据的全链路研发。针对代码场景特有的严格语法约束、长上下文(跨文件)项目级推理、执行反馈及调试修复特性,设计并落地基于编译器执行反馈、自动化测试用例生成、复杂代码构建轨迹爬取等技术的数据生产、自动化质检与定向修复方案,确保高质量 Code 数据的稳定、高标准交付;
2.深度参与代码模型能力的专项评测与分析(如基于 HumanEval、MBPP、SWE-bench 等),制定科学的评价指标体系。通过剖析模型在实际编程任务中的弱项,设计并落地高效的数据飞轮机制,定向进行数据补充与配方调整,实现“评测发现问题-数据定向强化-效果闭环提升”,持续驱动模型代码核心能力的演进;
3.追踪与研究支撑大模型后训练与 Coding 能力提升的前沿技术,关注基于执行反馈的强化学习(RLAIF/RLCE)、代码自验证生成、AI SWE等方向,能够将最新代码数据相关的研究成果快速转化为业务价值。
岗位要求:
1.计算机科学、软件工程、人工智能或相关专业硕士及以上学历,具备大模型数据工程或Code LLM等实际项目经验;
2.深入理解 Transformer 架构及大语言模型训练原理,具备丰富的数据处理经验。能针对Code SFT、代码偏好对齐等后训练场景,设计高标准数据方案,有项目实战经验;
3.深入实践过 CodeAct、SWE-agent、LATS、AlphaCode等前沿代码推理与自动化框架者优先;
4.熟练掌握 Python,善于利用 Cursor、Claude Code 等 AI 辅助工具提升数据生产与自动化分析效率。熟悉至少一门其他主流编程语言(C++/Java/Go等),熟悉Docker优先;
5.在前沿会议有高质量论文发表,或在开源社区有高影响力贡献者优先;
6.具备强烈的数据敏感度、技术热情和自驱力,能够从繁杂的代码与报错日志中洞察模型能力的边界,拥有优秀的跨团队(模型、评测、平台)协作与沟通能力。
1.负责大模型后训练(SFT+RL)阶段 Coding(代码生成与理解)类数据的全链路研发。针对代码场景特有的严格语法约束、长上下文(跨文件)项目级推理、执行反馈及调试修复特性,设计并落地基于编译器执行反馈、自动化测试用例生成、复杂代码构建轨迹爬取等技术的数据生产、自动化质检与定向修复方案,确保高质量 Code 数据的稳定、高标准交付;
2.深度参与代码模型能力的专项评测与分析(如基于 HumanEval、MBPP、SWE-bench 等),制定科学的评价指标体系。通过剖析模型在实际编程任务中的弱项,设计并落地高效的数据飞轮机制,定向进行数据补充与配方调整,实现“评测发现问题-数据定向强化-效果闭环提升”,持续驱动模型代码核心能力的演进;
3.追踪与研究支撑大模型后训练与 Coding 能力提升的前沿技术,关注基于执行反馈的强化学习(RLAIF/RLCE)、代码自验证生成、AI SWE等方向,能够将最新代码数据相关的研究成果快速转化为业务价值。
岗位要求:
1.计算机科学、软件工程、人工智能或相关专业硕士及以上学历,具备大模型数据工程或Code LLM等实际项目经验;
2.深入理解 Transformer 架构及大语言模型训练原理,具备丰富的数据处理经验。能针对Code SFT、代码偏好对齐等后训练场景,设计高标准数据方案,有项目实战经验;
3.深入实践过 CodeAct、SWE-agent、LATS、AlphaCode等前沿代码推理与自动化框架者优先;
4.熟练掌握 Python,善于利用 Cursor、Claude Code 等 AI 辅助工具提升数据生产与自动化分析效率。熟悉至少一门其他主流编程语言(C++/Java/Go等),熟悉Docker优先;
5.在前沿会议有高质量论文发表,或在开源社区有高影响力贡献者优先;
6.具备强烈的数据敏感度、技术热情和自驱力,能够从繁杂的代码与报错日志中洞察模型能力的边界,拥有优秀的跨团队(模型、评测、平台)协作与沟通能力。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!