小红书(xiaohongshu)招聘模型开发工程师
招聘职位:
模型开发工程师 搜索同类职位
岗位职责:
岗位描述
我们正在建设一套面向内容安全场景的 Agentic RL 训推一体基础设施,打通从数据合成、强化学习训练、评测闭环,到推理优化与模型生命周期管理的完整链路。
这是一个高度复杂且尚未被标准化的问题:在多轮交互与长上下文条件下,如何让 Agent 稳定学习与持续进化?如何在真实业务中建立训练与推理的闭环?如何在效果与成本之间找到可规模化的工程解法?
我们希望你不仅能够实现模块,而是能够负责一个方向的系统设计与落地——从问题定义、方案设计,到工程实现与持续演进。这是一个位于「模型 × 系统 × Agent」交叉点的岗位——你既要能深入框架内核做定制改造,也要能在系统层面做出正确的架构判断。
工作职责
1、负责 Agentic RL 训推一体基础设施中一个或多个核心子系统(如训练框架、推理系统、Agent 执行框架等)的设计与落地,并对其长期演进负责;
2、主导复杂问题的技术拆解与方案设计,例如多轮轨迹建模、长上下文训练效率优化、强化学习稳定性提升等,并推动工程实现;
3、构建并优化大模型训练与推理链路,提升系统在真实审核场景下的效果与效率,系统性降低推理成本;
4、推动 Agent 工程体系建设(Tool Use、Multi-Agent 协同、任务编排等),将复杂审核任务抽象为可复用的系统能力;
5、建立训练-评测-推理的闭环反馈机制,推进 Agent 与模型的协同优化(co-optimization)。
任职要求:
1、工程能力扎实,具备复杂 AI 系统(训练或推理)从设计到落地的完整经验,能够独立负责一个子系统并对其长期演进负责,具备深入主流框架进行定制化改造能力;
2、理解强化学习核心算法(如 PPO / GRPO 等)及其在大模型或 Agent 场景中的应用,有端到端 Agent 训练或多轮交互系统的实践经验;
3、具备推理优化实战经验,熟悉 vLLM、SGLang 等推理框架,理解 KV Cache、Batching、并行调度等关键机制。
加入我们,你将收获:
1、主导内容安全 Agentic RL 从 0 到 1 的体系建设,这是业内极少数将强化学习与审核场景真实结合的工程实践机会;
2、深度参与「模型 × 系统 × Agent」三位一体的核心攻坚,在真实数据和真实业务约束下解决最硬核的工程难题;
3、与算法、工程、产品紧密协同,推动模型能力以最快速度在审核链路中落地,见证并创造 AI 驱动内容安全的新范式。
岗位描述
我们正在建设一套面向内容安全场景的 Agentic RL 训推一体基础设施,打通从数据合成、强化学习训练、评测闭环,到推理优化与模型生命周期管理的完整链路。
这是一个高度复杂且尚未被标准化的问题:在多轮交互与长上下文条件下,如何让 Agent 稳定学习与持续进化?如何在真实业务中建立训练与推理的闭环?如何在效果与成本之间找到可规模化的工程解法?
我们希望你不仅能够实现模块,而是能够负责一个方向的系统设计与落地——从问题定义、方案设计,到工程实现与持续演进。这是一个位于「模型 × 系统 × Agent」交叉点的岗位——你既要能深入框架内核做定制改造,也要能在系统层面做出正确的架构判断。
工作职责
1、负责 Agentic RL 训推一体基础设施中一个或多个核心子系统(如训练框架、推理系统、Agent 执行框架等)的设计与落地,并对其长期演进负责;
2、主导复杂问题的技术拆解与方案设计,例如多轮轨迹建模、长上下文训练效率优化、强化学习稳定性提升等,并推动工程实现;
3、构建并优化大模型训练与推理链路,提升系统在真实审核场景下的效果与效率,系统性降低推理成本;
4、推动 Agent 工程体系建设(Tool Use、Multi-Agent 协同、任务编排等),将复杂审核任务抽象为可复用的系统能力;
5、建立训练-评测-推理的闭环反馈机制,推进 Agent 与模型的协同优化(co-optimization)。
任职要求:
1、工程能力扎实,具备复杂 AI 系统(训练或推理)从设计到落地的完整经验,能够独立负责一个子系统并对其长期演进负责,具备深入主流框架进行定制化改造能力;
2、理解强化学习核心算法(如 PPO / GRPO 等)及其在大模型或 Agent 场景中的应用,有端到端 Agent 训练或多轮交互系统的实践经验;
3、具备推理优化实战经验,熟悉 vLLM、SGLang 等推理框架,理解 KV Cache、Batching、并行调度等关键机制。
加入我们,你将收获:
1、主导内容安全 Agentic RL 从 0 到 1 的体系建设,这是业内极少数将强化学习与审核场景真实结合的工程实践机会;
2、深度参与「模型 × 系统 × Agent」三位一体的核心攻坚,在真实数据和真实业务约束下解决最硬核的工程难题;
3、与算法、工程、产品紧密协同,推动模型能力以最快速度在审核链路中落地,见证并创造 AI 驱动内容安全的新范式。
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!