查看更多分享

小红书(xiaohongshu)招聘模型开发工程师

招聘职位：

发布日期：: 2026-07-18
工作地点：: 杭州市
上海市
职位类型：: 全职
职位类别：: 后端开发
来源：: 小红书官网

岗位职责：
岗位描述
我们正在建设一套面向内容安全场景的 Agentic RL 训推一体基础设施，打通从数据合成、强化学习训练、评测闭环，到推理优化与模型生命周期管理的完整链路。
这是一个高度复杂且尚未被标准化的问题：在多轮交互与长上下文条件下，如何让 Agent 稳定学习与持续进化？如何在真实业务中建立训练与推理的闭环？如何在效果与成本之间找到可规模化的工程解法？
我们希望你不仅能够实现模块，而是能够负责一个方向的系统设计与落地——从问题定义、方案设计，到工程实现与持续演进。这是一个位于「模型 × 系统 × Agent」交叉点的岗位——你既要能深入框架内核做定制改造，也要能在系统层面做出正确的架构判断。
工作职责
1、负责 Agentic RL 训推一体基础设施中一个或多个核心子系统（如训练框架、推理系统、Agent 执行框架等）的设计与落地，并对其长期演进负责；
2、主导复杂问题的技术拆解与方案设计，例如多轮轨迹建模、长上下文训练效率优化、强化学习稳定性提升等，并推动工程实现；
3、构建并优化大模型训练与推理链路，提升系统在真实审核场景下的效果与效率，系统性降低推理成本；
4、推动 Agent 工程体系建设（Tool Use、Multi-Agent 协同、任务编排等），将复杂审核任务抽象为可复用的系统能力；
5、建立训练-评测-推理的闭环反馈机制，推进 Agent 与模型的协同优化（co-optimization）。
任职要求：
1、工程能力扎实，具备复杂 AI 系统（训练或推理）从设计到落地的完整经验，能够独立负责一个子系统并对其长期演进负责，具备深入主流框架进行定制化改造能力；
2、理解强化学习核心算法（如 PPO / GRPO 等）及其在大模型或 Agent 场景中的应用，有端到端 Agent 训练或多轮交互系统的实践经验；
3、具备推理优化实战经验，熟悉 vLLM、SGLang 等推理框架，理解 KV Cache、Batching、并行调度等关键机制。
加入我们，你将收获：
1、主导内容安全 Agentic RL 从 0 到 1 的体系建设，这是业内极少数将强化学习与审核场景真实结合的工程实践机会；
2、深度参与「模型 × 系统 × Agent」三位一体的核心攻坚，在真实数据和真实业务约束下解决最硬核的工程难题；
3、与算法、工程、产品紧密协同，推动模型能力以最快速度在审核链路中落地，见证并创造 AI 驱动内容安全的新范式。

前往官网投递

免责声明：

此信息由小红书官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：哔哩哔哩(bilibili|b站)商业化-自助投放产品经理Leader

下一职位：小红书「电商 CRM」- 产品经理