小红书(xiaohongshu)招聘GPU调度研发工程师/专家
招聘职位:
GPU调度研发工程师/专家 搜索同类职位
岗位职责:
工作职责:
1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。
2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。
3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。
任职要求:
任职资格:
1、熟悉云原生生态及工具,如Kubernetes、Kubeflow、Volcano等,有GPU虚拟化、GPU集群调度、故障容错、高速存储/网络等经验优先;
2、了解大模型基本概念及训推生命周期,如预训练、微调、对齐、推理、部署等基本概念及流程,能够支撑大模型平台构建&优化即可;
3、熟悉大规模GPU训练、推理集群的调优技术,能结合平台调度、网络拓扑优化等提升集群训练推理效率。
4、熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门,熟悉至少一种深度学习框架,如PyTorch、TensorFlow、PaddlePaddle等。
5、具备优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分。
加分项 :
1、有大模型场景下负载特征分析、GPU集群调度&性能优化、高性能网络/存储等实践经验或者相关研究成果优先;
2、有GPU虚拟化落地、在线/离线场景混合部署经验优先;
3、有大规模GPU集群上预训练、推理等场景端到端优化经验优先。
工作职责:
1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。
2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。
3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。
任职要求:
任职资格:
1、熟悉云原生生态及工具,如Kubernetes、Kubeflow、Volcano等,有GPU虚拟化、GPU集群调度、故障容错、高速存储/网络等经验优先;
2、了解大模型基本概念及训推生命周期,如预训练、微调、对齐、推理、部署等基本概念及流程,能够支撑大模型平台构建&优化即可;
3、熟悉大规模GPU训练、推理集群的调优技术,能结合平台调度、网络拓扑优化等提升集群训练推理效率。
4、熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门,熟悉至少一种深度学习框架,如PyTorch、TensorFlow、PaddlePaddle等。
5、具备优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分。
加分项 :
1、有大模型场景下负载特征分析、GPU集群调度&性能优化、高性能网络/存储等实践经验或者相关研究成果优先;
2、有GPU虚拟化落地、在线/离线场景混合部署经验优先;
3、有大规模GPU集群上预训练、推理等场景端到端优化经验优先。
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!