查看更多分享

小红书(xiaohongshu)招聘大模型MaaS推理资源调度系统工程师/专家

招聘职位：

大模型MaaS推理资源调度系统工程师/专家 搜索同类职位

发布日期：: 2026-07-01
工作地点：: 北京市
上海市
深圳市
杭州市
职位类型：: 全职
职位类别：: 引擎
来源：: 小红书官网

岗位职责：
我们正在建设面向万亿级 Token/日、万卡级异构 GPU 集群的 MaaS 调度系统，目标打造行业领先的大模型推理调度能力。你将负责核心调度系统建设，支撑多类大模型推理负载，通过在线离线混部、弹性调度和异构算力调度，在保障 SLA 的同时提升算力利用率、降低单位 Token 成本，让超大规模 MaaS 推理服务更稳、更快、更省。

工作职责
1、万亿级 Token/日吞吐优化：围绕 QPS、RPM/TPM、并发、Token 吞吐、TTFT、TPOT延迟等指标，优化推理服务整体吞吐和资源效率。
2、在线推理与离线批推混部：在保障在线推理 SLA 的前提下，将批量推理、模型评测、数据生成、异步任务、低优先级推理等离线/准离线负载调度到闲置 GPU 资源中运行，提升集群整体利用率。
3、弹性调度与成本优化：建设基于流量预测、队列状态、GPU 利用率/SMA、显存、KV Cache、模型热度等指标的弹性伸缩能力，实现容量预热、快速扩缩容、资源回收和成本归因。
4、大规模异构算力调度：面向万卡级异构 GPU 集群，建设跨集群、跨机型、跨芯片架构、跨模型的统一调度系统，解决资源分配、模型副本放置、容量池治理、热点迁移、故障迁移和资源碎片治理问题。
任职要求：
1、有分布式系统、云原生、资源调度或高性能服务治理经验。
2、熟悉 Kubernetes 调度体系、弹性伸缩、服务发现、流量治理等技术。
3、理解大模型推理链路，熟悉 GPU、显存、KV Cache、batching、Token 吞吐、TTFT/TPOT 等概念。
4、有 GPU 集群、MaaS 平台、模型服务平台或推理系统经验优先。
5、具备强指标意识，能够围绕 SLA、GPU 利用率/SMA、吞吐、延迟和成本持续优化系统。

加分项
1、熟悉 AIBrix、llm-d、vLLM、SGLang、KServe、Ray Serve 等推理框架或服务化体系。
2、有在线离线混部、弹性调度、算力资源池化、异构算力调度相关经验。
3、有大规模 GPU 集群、万亿级 Token 推理服务或商业化 MaaS 平台建设经验。
4、有提升 GPU 利用率、SMA、推理吞吐或降低单位 Token 成本的实际案例。
5、熟悉多租户资源隔离、优先级调度、抢占、配额、成本归因和容量治理。

前往官网投递

免责声明：

此信息由小红书官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)北京服务站站长

下一职位：小红书(xiaohongshu)治理策略经营分析专家-T&S