查看更多分享

小红书(xiaohongshu)招聘大模型MaaS推理资源调度系统工程师/专家

招聘职位:

大模型MaaS推理资源调度系统工程师/专家 搜索同类职位
发布日期:
2026-07-01
工作地点:
职位类型:
全职
职位类别:
引擎
来源:
小红书官网
岗位职责:
我们正在建设面向万亿级 Token/日、万卡级异构 GPU 集群的 MaaS 调度系统,目标打造行业领先的大模型推理调度能力。你将负责核心调度系统建设,支撑多类大模型推理负载,通过在线离线混部、弹性调度和异构算力调度,在保障 SLA 的同时提升算力利用率、降低单位 Token 成本,让超大规模 MaaS 推理服务更稳、更快、更省。

工作职责
1、万亿级 Token/日吞吐优化:围绕 QPS、RPM/TPM、并发、Token 吞吐、TTFT、TPOT延迟等指标,优化推理服务整体吞吐和资源效率。
2、在线推理与离线批推混部:在保障在线推理 SLA 的前提下,将批量推理、模型评测、数据生成、异步任务、低优先级推理等离线/准离线负载调度到闲置 GPU 资源中运行,提升集群整体利用率。
3、弹性调度与成本优化:建设基于流量预测、队列状态、GPU 利用率/SMA、显存、KV Cache、模型热度等指标的弹性伸缩能力,实现容量预热、快速扩缩容、资源回收和成本归因。
4、大规模异构算力调度:面向万卡级异构 GPU 集群,建设跨集群、跨机型、跨芯片架构、跨模型的统一调度系统,解决资源分配、模型副本放置、容量池治理、热点迁移、故障迁移和资源碎片治理问题。
任职要求:
1、有分布式系统、云原生、资源调度或高性能服务治理经验。
2、熟悉 Kubernetes 调度体系、弹性伸缩、服务发现、流量治理等技术。
3、理解大模型推理链路,熟悉 GPU、显存、KV Cache、batching、Token 吞吐、TTFT/TPOT 等概念。
4、有 GPU 集群、MaaS 平台、模型服务平台或推理系统经验优先。
5、具备强指标意识,能够围绕 SLA、GPU 利用率/SMA、吞吐、延迟和成本持续优化系统。

加分项
1、熟悉 AIBrix、llm-d、vLLM、SGLang、KServe、Ray Serve 等推理框架或服务化体系。
2、有在线离线混部、弹性调度、算力资源池化、异构算力调度相关经验。
3、有大规模 GPU 集群、万亿级 Token 推理服务或商业化 MaaS 平台建设经验。
4、有提升 GPU 利用率、SMA、推理吞吐或降低单位 Token 成本的实际案例。
5、熟悉多租户资源隔离、优先级调度、抢占、配额、成本归因和容量治理。
免责声明:

此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 小红书(xiaohongshu)招聘常见问答

小红书(xiaohongshu)招聘工作地点:
北京市,上海市,深圳市,杭州市
小红书(xiaohongshu)招聘经验要求:
three_to_five_year