查看更多分享

腾讯(tencent)招聘微信-WeLM 大模型预训练框架研发工程师(深圳、上海)

招聘职位:

微信-WeLM 大模型预训练框架研发工程师(深圳、上海) 搜索同类职位
发布日期:
2026-06-16
工作地点:
职位类型:
全职
职位类别:
技术
来源:
腾讯官网
岗位职责:
1.负责构建和优化大规模预训练框架,支持文本、语音、图像等多模态数据的联合学习与高效训练;
2.深入优化长序列场景下的分布式训练与显存利用(如context parallel、2D/环形 Attention、混合并行、激活重计算等),在百万级 token 训练中提升吞吐与性价比;
3.负责后训练(Post-training)阶段框架建设,包括强化学习(RL/RLHF)、偏好建模(Reward Model)及人类反馈优化(Alignment)等流程;
4.深入优化分布式训练框架与推理效率,提升算力利用率与模型吞吐性能;
5.跟踪前沿研究趋势,探索高效预训练策略(如Mixture of Experts、Continual Pretraining等);
6.与算法、数据、平台团队协作,形成从数据处理到训练部署的全流程自动化解决方案。
岗位要求:
1.计算机科学、人工智能、模式识别、计算语言学等相关专业硕士及以上学历;
2.精通一种或多种主流深度学习框架(PyTorch、JAX、TensorFlow),具备大规模分布式训练经验;
3.熟悉Transformer系列架构,理解其在语言、语音、视觉等方向的模型原理与实现;
4.了解 LLM 的训练流程,有 Megatron, DeepSpeed 等大规模训练框架使用经验者优先;
5.对RL/RLHF、偏好学习、奖励建模有实践经验者优先;
6.具备扎实的工程实现能力与代码规范意识,熟悉CUDA优化、参数并行、流水线并行等技术;
7.具备良好的团队协作与沟通能力,热爱探索与创新。
加分项:
1.在 GitHub 等平台持续参与主流大模型 / 分布式训练 / RLHF 等项目的开发维护,有高质量 PR 被核心项目合并,或担任 maintainer / reviewer;
2.主导或深度参与自研预训练 / 后训练框架、长上下文训练工具链等开源项目,具备清晰的技术文档与使用教程,拥有一定 Star / Fork 规模和社区用户;
3.在 Hugging Face 社区、技术博客或开发者论坛上定期分享工程实践(如长上下文训练、MoE、大规模分布式调优等),具备良好的技术传播与社区影响力。
免责声明:

此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 腾讯(tencent)招聘常见问答

腾讯(tencent)招聘工作地点:
北京
腾讯(tencent)招聘经验要求:
两年以上工作经验