小红书(xiaohongshu)招聘GPU调度研发工程师/专家
招聘职位:
GPU调度研发工程师/专家 搜索同类职位
岗位职责:
工作职责
1、万卡级 GPU 调度系统建设: 参与大规模 GPU 集群调度系统建设,围绕 Quota、优先级、抢占、弹性伸缩、碎片整理、拓扑感知调度等能力提升资源效率。
2、训推统一调度: 面向大模型训练、后训练、推理服务等不同负载,设计训推统一调度、潮汐混部、在线离线协同和资源弹性策略。
3、资源利用率治理: 建设 GPU 资源利用率分析体系,基于真实负载数据识别低效资源、资源碎片、潮汐空闲和调度瓶颈。
4、LLMOps 平台融合: 参与构建面向大模型训练、微调、推理、部署全流程的 LLMOps 能力,与云原生平台深度融合,支撑大模型生产链路稳定高效落地。
5、集群稳定性建设: 与云原生、IDC、网络、存储和业务团队协作,提升大规模 AI 集群的故障恢复能力、资源周转效率和任务稳定性。
6、前沿技术探索: 持续关注 Kubernetes、Volcano、Kueue、Ray、GPU 虚拟化、弹性调度等相关技术,探索下一代 AI 资源调度系统。
任职要求:
任职资格
1、熟悉云原生生态及工具,如 Kubernetes、Kubeflow、Volcano、Kueue 等,有调度系统开发经验优先。
2、熟悉 GPU 集群调度、GPU 虚拟化、Quota 管理、故障容错、资源弹性伸缩、高速网络 / 存储等方向中的至少一类。
3、了解大模型训练、后训练、推理、部署等生命周期,理解不同负载对 GPU 资源、网络、存储和调度策略的差异化诉求。
4、熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门,具备良好的工程实现能力。
5、具备优秀的逻辑分析能力和系统抽象能力,能够基于真实业务负载进行问题拆解、策略设计和工程落地。
6、有良好的沟通协作能力,能与平台、云原生、算法、业务、IDC、网络和存储团队协同推进复杂项目。
加分项 :
1、有大模型场景下负载特征分析、GPU 集群调度、资源利用率优化、高性能网络 / 存储等实践经验。
2、有 GPU 虚拟化、在线 / 离线混部、潮汐调度、抢占式调度、碎片整理等落地经验。
3、有大规模训练或推理集群端到端优化经验,理解训练和推理负载在调度侧的差异。
4、熟悉 RDMA、IB、RoCE、NCCL 等通信机制,能结合网络拓扑优化调度策略。
5、有 Kubernetes Scheduler、Volcano、Kueue、Ray、YARN、Airflow 等调度系统开发经验。
工作职责
1、万卡级 GPU 调度系统建设: 参与大规模 GPU 集群调度系统建设,围绕 Quota、优先级、抢占、弹性伸缩、碎片整理、拓扑感知调度等能力提升资源效率。
2、训推统一调度: 面向大模型训练、后训练、推理服务等不同负载,设计训推统一调度、潮汐混部、在线离线协同和资源弹性策略。
3、资源利用率治理: 建设 GPU 资源利用率分析体系,基于真实负载数据识别低效资源、资源碎片、潮汐空闲和调度瓶颈。
4、LLMOps 平台融合: 参与构建面向大模型训练、微调、推理、部署全流程的 LLMOps 能力,与云原生平台深度融合,支撑大模型生产链路稳定高效落地。
5、集群稳定性建设: 与云原生、IDC、网络、存储和业务团队协作,提升大规模 AI 集群的故障恢复能力、资源周转效率和任务稳定性。
6、前沿技术探索: 持续关注 Kubernetes、Volcano、Kueue、Ray、GPU 虚拟化、弹性调度等相关技术,探索下一代 AI 资源调度系统。
任职要求:
任职资格
1、熟悉云原生生态及工具,如 Kubernetes、Kubeflow、Volcano、Kueue 等,有调度系统开发经验优先。
2、熟悉 GPU 集群调度、GPU 虚拟化、Quota 管理、故障容错、资源弹性伸缩、高速网络 / 存储等方向中的至少一类。
3、了解大模型训练、后训练、推理、部署等生命周期,理解不同负载对 GPU 资源、网络、存储和调度策略的差异化诉求。
4、熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门,具备良好的工程实现能力。
5、具备优秀的逻辑分析能力和系统抽象能力,能够基于真实业务负载进行问题拆解、策略设计和工程落地。
6、有良好的沟通协作能力,能与平台、云原生、算法、业务、IDC、网络和存储团队协同推进复杂项目。
加分项 :
1、有大模型场景下负载特征分析、GPU 集群调度、资源利用率优化、高性能网络 / 存储等实践经验。
2、有 GPU 虚拟化、在线 / 离线混部、潮汐调度、抢占式调度、碎片整理等落地经验。
3、有大规模训练或推理集群端到端优化经验,理解训练和推理负载在调度侧的差异。
4、熟悉 RDMA、IB、RoCE、NCCL 等通信机制,能结合网络拓扑优化调度策略。
5、有 Kubernetes Scheduler、Volcano、Kueue、Ray、YARN、Airflow 等调度系统开发经验。
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!