查看更多分享

小红书(xiaohongshu)招聘GPU调度研发工程师/专家

招聘职位：

GPU调度研发工程师/专家 搜索同类职位

发布日期：: 2026-07-14
工作地点：: 北京市
上海市
杭州市
职位类型：: 全职
职位类别：: 引擎
来源：: 小红书官网

岗位职责：
1、万卡级 GPU 调度系统建设：参与大规模 GPU 集群调度系统建设，围绕 Quota、优先级、抢占、弹性伸缩、碎片整理、拓扑感知调度等能力提升资源效率。
2、训推统一调度：面向大模型训练、后训练、推理服务等不同负载，设计训推统一调度、潮汐混部、在线离线协同和资源弹性策略。
3、资源利用率治理：建设 GPU 资源利用率分析体系，基于真实负载数据识别低效资源、资源碎片、潮汐空闲和调度瓶颈。
4、LLMOps 平台融合：参与构建面向大模型训练、微调、推理、部署全流程的 LLMOps 能力，与云原生平台深度融合，支撑大模型生产链路稳定高效落地。
5、集群稳定性建设：与云原生、IDC、网络、存储和业务团队协作，提升大规模 AI 集群的故障恢复能力、资源周转效率和任务稳定性。
6、前沿技术探索：持续关注 Kubernetes、Volcano、Kueue、Ray、GPU 虚拟化、弹性调度等相关技术，探索下一代 AI 资源调度系统。
任职要求：
1、熟悉云原生生态及工具，如 Kubernetes、Kubeflow、Volcano、Kueue 等，有调度系统开发经验优先。
2、熟悉 GPU 集群调度、GPU 虚拟化、Quota 管理、故障容错、资源弹性伸缩、高速网络 / 存储等方向中的至少一类。
3、了解大模型训练、后训练、推理、部署等生命周期，理解不同负载对 GPU 资源、网络、存储和调度策略的差异化诉求。
4、熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门，具备良好的工程实现能力。
5、具备优秀的逻辑分析能力和系统抽象能力，能够基于真实业务负载进行问题拆解、策略设计和工程落地。
6、有良好的沟通协作能力，能与平台、云原生、算法、业务、IDC、网络和存储团队协同推进复杂项目。
加分项 :
1、有大模型场景下负载特征分析、GPU 集群调度、资源利用率优化、高性能网络 / 存储等实践经验。
2、有 GPU 虚拟化、在线 / 离线混部、潮汐调度、抢占式调度、碎片整理等落地经验。
3、有大规模训练或推理集群端到端优化经验，理解训练和推理负载在调度侧的差异。
4、熟悉 RDMA、IB、RoCE、NCCL 等通信机制，能结合网络拓扑优化调度策略。
5、有 Kubernetes Scheduler、Volcano、Kueue、Ray、YARN、Airflow 等调度系统开发经验。

前往官网投递

免责声明：

此信息由小红书官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)松鼠便利物流运营组逆向运营岗

下一职位：小红书「电商 CRM」- 产品经理