小红书招聘大模型推理服务(MaaS)研发工程师/专家

招聘职位：

大模型推理服务(MaaS)研发工程师/专家 搜索同类职位

发布日期：: 2026-05-27
工作地点：: 北京市
上海市
职位类型：: 全职
职位类别：: 引擎
来源：: 小红书官网

岗位职责：
我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！

DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。
核心职责
1. 参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型MaaS服务；
2. 探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益；
3. 探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统；
4. 参与MaaS系统的国产卡适配与异构算力统一调度体系，如华为910C、阿里PPU、昆仑芯P800；
5. 参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。
任职要求：
任职要求
1. 熟悉业界主流Dense、MOE大模型架构及主要特点，能识别出模型效果及主要使用场景，支持用户大模型的选型和使用需求；
2. 了解至少一种大模型服务推理部署框架，如vLLM、SGLang、Dynamo等，并有过大模型服务部署的经验；
3. 优秀的代码能力、数据结构和基础算法功底，熟悉C++/Python开发，熟悉 Linux/Git 开发环境；
4. 有强烈的工作责任心，较好的学习能力、沟通协作能力和自驱力，能和团队一起探索新技术，推进技术进步。
加分项
1. 有AI大模型网关相关方向研究或实操经验，如多模型路由、AI负载感知路由等；
2. 有大模型推理系统问题排查和优化经验，如推理的RT分析和优化；
3. 有国产主力卡型，如华为910C、阿里PPU、昆仑芯P800，性能评测或相关接入经验；

前往官网投递

免责声明：

此信息由小红书官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯41299-服务器性能测试工程师(北京)

下一职位：小红书推荐算法工程师-用户增长

小红书招聘大模型推理服务(MaaS)研发工程师/专家

招聘职位：

FAQ 小红书招聘常见问答

牛大妈找到相似职位