腾讯(tencent)招聘混元多模态强化学习后训练算法工程师（框架协同方向）（北京/上海）

招聘职位：

混元多模态强化学习后训练算法工程师（框架协同方向）（北京/上海） 搜索同类职位

发布日期：: 2026-03-06
工作地点：: 深圳
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.算法-框架协同设计：作为算法与框架团队之间的技术桥梁，深入理解多模态大模型后训练算法（如RLHF、DPO、课程强化学习等）的原理与演进趋势，并将其转化为对底层框架的功能需求，为框架架构设计建言献策；
2.训练流程优化与评测：主导或深度参与后训练流程（如多模态SFT、RLHF）的搭建、优化与效果评测。关注训练稳定性、效率及泛化能力，特别是针对跨模态对齐、奖励函数设计及策略优化等环节提出系统性改进方案；
3.技术调研与瓶颈攻关：主动跟踪学术界与工业界在多模态强化学习后训练领域的前沿进展。针对训练中出现的瓶颈（如OOD泛化不足；
4.模态融合冲突等），进行根因分析，并与框架团队协作制定解决方案；
5.跨团队支持与知识沉淀：高效协同框架开发、硬件优化及业务算法团队，确保技术方案落地。撰写高质量的技术文档、设计稿与实验报告，并组织内部分享，推动团队整体技术认知提升。
岗位要求：
1.学历与技术背景：拥有计算机科学、人工智能、电子工程、自动化等相关专业的硕士及以上学历。具备扎实的机器学习/深度学习基础，对多模态大模型和强化学习后训练技术栈有深入理解；
2.核心算法与工程能力：精通Python编程，熟练掌握PyTorch等深度学习框架。对Transformer、Diffusion等模型架构有深刻理解；
3.深刻理解SFT、RLHF、DPO等后训练算法的原理、流程及常见挑战（如训练不稳定性、奖励黑客行为等）；
4.具备优秀的工程实现和调试能力，能够快速验证算法想法，并进行严格的实验分析以评估性能；
5.框架协同与系统视角：；
6.熟悉至少一种主流大模型训练/推理框架（如Megatron-LM、DeepSpeed、VLLM），了解其架构设计思想；
7.能够从算法视角评估框架的易用性、扩展性和性能，并提出改进建议。有使用VERL、OpenRLHF等后训练框架的经验者更佳；
8.软技能：具备出色的跨团队沟通能力，能清晰地在算法和工程团队之间翻译需求、阐明方案。拥有强烈的责任心、自驱力和解决复杂问题的热情。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)民营医疗CKA销售主管

下一职位：美团(meituan)闪购-歪马-采销专家（白酒）

腾讯(tencent)招聘混元多模态强化学习后训练算法工程师（框架协同方向）（北京/上海）

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

牛大妈找到相似职位