腾讯(tencent)招聘大模型训推优化工程师(深圳/北京)
招聘职位:
大模型训推优化工程师(深圳/北京) 搜索同类职位
岗位职责:
1.支持算力引入评估,负责大模型训练、推理在新硬件上的评测及调优工作;
2.主导建设大模型训推稳定性体系,解决模型生产中的技术难题,提升大规模训推的稳定性和效率;
3.深入分析大模型训推特性,结合AI芯片和整机硬件系统,软硬协同充分发挥硬件效能。
岗位要求:
1.精通主流大模型训练框架(DeepSpeed、Megatron等)和训练流程,熟悉分布式训练的底层通信机制、内存管理和优化策略、并行调度逻辑,有训练调参和性能评测经验;
2.熟悉主流大模型推理框架(vLLM、SGLang等),具备在推理上进行通信优化、并行计算、存储优化等调优能力;
3.熟悉主流AI芯片(GPU H100、Ascent)架构特性和相关profiling工具,有CUDA编程、编译分析、运行时分析等经验;
4.熟悉大规模训推的可观测建设、诊断分析、故障解决,有稳定性治理经验优先;
5.有良好的沟通、解决问题能力,能主动探索业界前沿技术。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
1.支持算力引入评估,负责大模型训练、推理在新硬件上的评测及调优工作;
2.主导建设大模型训推稳定性体系,解决模型生产中的技术难题,提升大规模训推的稳定性和效率;
3.深入分析大模型训推特性,结合AI芯片和整机硬件系统,软硬协同充分发挥硬件效能。
岗位要求:
1.精通主流大模型训练框架(DeepSpeed、Megatron等)和训练流程,熟悉分布式训练的底层通信机制、内存管理和优化策略、并行调度逻辑,有训练调参和性能评测经验;
2.熟悉主流大模型推理框架(vLLM、SGLang等),具备在推理上进行通信优化、并行计算、存储优化等调优能力;
3.熟悉主流AI芯片(GPU H100、Ascent)架构特性和相关profiling工具,有CUDA编程、编译分析、运行时分析等经验;
4.熟悉大规模训推的可观测建设、诊断分析、故障解决,有稳定性治理经验优先;
5.有良好的沟通、解决问题能力,能主动探索业界前沿技术。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!