腾讯(tencent)招聘混元文本/多模态预训练框架研发工程师(深圳/北京/上海/杭州)
招聘职位:
混元文本/多模态预训练框架研发工程师(深圳/北京/上海/杭州) 搜索同类职位
岗位职责:
1.参与开发优化大模型训练框架,支持单任务万卡以上规模高效稳定训练;
2.参与NLP、多模态大模型结构设计,并联合业务进行模型训练效率和效果验证;
3.参与文生图、文生视频、文生3D等业务的训练性能加速;
4.参与低精度训练性能优化和业务推广、参与大窗口训练性能优化。
岗位要求:
1.熟练使用主流大模型训练框架DeepSpeed、Megatron,掌握3D并行、ZeRO机制、Flash-Attn等的原理、使用场景、优劣势以及可优化方向;
2.有ViT、SD、DiT模型训练性能优化经验者优先;
3.熟练掌握CUDA性能优化手段,有算子编写优化项目经验者优先;
4.对大模型前沿技术比较敏锐者优先;
5.有实际大模型的训练调参和效果评测项目经验的优先;
6.良好的沟通能力、解决问题能力。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
1.参与开发优化大模型训练框架,支持单任务万卡以上规模高效稳定训练;
2.参与NLP、多模态大模型结构设计,并联合业务进行模型训练效率和效果验证;
3.参与文生图、文生视频、文生3D等业务的训练性能加速;
4.参与低精度训练性能优化和业务推广、参与大窗口训练性能优化。
岗位要求:
1.熟练使用主流大模型训练框架DeepSpeed、Megatron,掌握3D并行、ZeRO机制、Flash-Attn等的原理、使用场景、优劣势以及可优化方向;
2.有ViT、SD、DiT模型训练性能优化经验者优先;
3.熟练掌握CUDA性能优化手段,有算子编写优化项目经验者优先;
4.对大模型前沿技术比较敏锐者优先;
5.有实际大模型的训练调参和效果评测项目经验的优先;
6.良好的沟通能力、解决问题能力。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!