查看更多分享

腾讯(tencent)招聘混元大模型后训练算法工程师/专家-角色扮演&文本创作

招聘职位：

混元大模型后训练算法工程师/专家-角色扮演&文本创作 搜索同类职位

发布日期：: 2026-07-03
工作地点：: 北京
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.后训练数据全链路研发：负责大模型后训练（SFT+RL）阶段面向线上核心场景的数据全链路研发，覆盖角色扮演、开放域对话、文本创作、知识问答、逻辑推理、理科解题、Memory等高优场景，针对各场景特性设计并落地覆盖数据生产、自动化质检与定向修复的端到端方案，确保数据在人设一致性、对话自然度、创作质量、事实准确性、推理严谨性、记忆连贯性等维度的稳定、高标准交付；
2.评测驱动的数据与训练链路优化：主导面向线上核心场景的评测体系建设，设计并落地覆盖多场景的 Rubrics 评分标准与自动化评测 pipeline；以评测结果为核心抓手，系统性诊断模型在各场景下的能力短板与失败模式，驱动上游数据调优（数据增补、清洗、重采样）与训练算法及链路的针对性改进（SFT 数据配比、RL reward 信号校准、训练策略迭代等），形成"评测定位问题 → 归因分析 → 数据/算法定向优化 → 效果验证闭环"的持续迭代飞轮；
3.前沿数据技术研究与落地：深度追踪并研究支撑大模型后训练与线上场景能力提升的前沿数据技术，重点关注多轮对话数据构建、角色人设注入与一致性保持、知识增强与事实性校验、复杂推理链数据生成、长程记忆与上下文管理、Rubric-based Evaluation、自动化质检与错误归因修复等方向，能够将最新数据方法快速转化为业务价值，持续驱动模型在各线上核心场景下的能力演进。
岗位要求：
1.计算机科学、人工智能或相关专业硕士及以上学历，深入理解 Transformer 架构及 LLM 训练原理，能针对 SFT、RLHF/DPO 等后训练场景设计并落地高标准数据方案；
2.在以下一个或多个方向有深入实践经验：角色扮演/开放域对话数据构建与多轮一致性优化、文本创作数据质量提升、知识问答事实性校验、推理与理科数据的正确性验证、长程记忆数据设计等；具备 Rubrics 评价体系的设计与质检经验，能推动人工标注、模型打分与规则校验等多种质检手段协同落地；
3.熟练掌握 Python 及 PyTorch 等深度学习框架，善于利用 Cursor、Claude Code 等 AI 辅助工具提升数据生产与自动化分析效率；
4.具备强烈的数据敏感度与洞察力，善于从海量数据与评测结果中发现隐含模式、定位模型能力瓶颈，并主动推动从 insight 到落地的完整闭环；拥有优秀的跨团队协作与沟通能力，能将数据发现清晰传达给算法、产品等上下游团队。在 CCF-A 顶会（NeurIPS、ICLR、ICML、ACL 等）有高质量论文发表或在开源社区有高影响力贡献者优先。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：小红书(xiaohongshu)海外账号产品经理

下一职位：小红书(xiaohongshu)AI 全栈工程师-C2C交易（前后端移动端同学均欢迎）

腾讯(tencent)招聘混元大模型后训练算法工程师/专家-角色扮演&文本创作

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示