小红书(xiaohongshu)招聘【Dots】基模post train算法工程师-RL Algorithms
招聘职位:
【Dots】基模post train算法工程师-RL Algorithms 搜索同类职位
岗位职责:
团队简介
我们是 Dots 基座大模型的 Post-train 团队。我们相信,模型不只是记住世界,而是真正学会在真实世界中思考、行动与自我成长。团队聚焦可验证奖励 RL、长程 agentic 智能、综合推理与自我演进等最前沿的方向,构建下一代能在复杂真实任务中可靠工作、并持续自我迭代的基座模型。
工作职责
在以下一个或多个方向进行深度攻关。
1. Frontier Research
Self Evolving:提升模型进行机器学习与大模型优化的能力,探索以 AI 加速 AI 研发的新范式:让模型参与到自身的训练、部署及 Agent 调度机制的迭代中,把改进的对象从"模型本身"抬升到"产生模型的研发流程",构建可递归的能力增益回路,持续寻找下一代能力增长曲线。
Lifelong Learning:探索模型"学会学习"的 Meta 能力:让模型在与陌生、开放环境的在线交互中持续更新自身内部状态,无需重新训练即可积累经验,不断提升长期的 decision making 与任务完成能力。
Scalable Oversigh:在难以 verify 的 fuzzy / 开放式任务上,突破人类监督的扩展性瓶颈:研究可扩展的监督、自我评估与自我修正机制,让监督信号的质量能随模型能力一同增长,降低对外部人工反馈的依赖。
2. RL Algorithms
研究面向长程、多轮、稀疏奖励场景的 RL 算法,系统性解决信用分配、训练稳定性、探索效率等核心问题;
设计更有效、更鲁棒的奖励与评估信号,缓解 reward hacking、验证误差与奖励噪声对训练的干扰;
研发 Adaptive Thinking,使模型按任务复杂度动态调整思考深度,在保证效果的同时实现高效推理;
探索新的优化目标与训练范式,显著提升长程、稀疏奖励任务的收敛速度与样本效率;
与 infra / 工程团队协同,推进 rollout 加速、环境稳定性、训推一致性等工程化瓶颈的解决。
3. Agentic Intelligence
在 Proactive Agent、CLI/GUI 计算机控制,高价值专业知识任务、深度信息获取、 软件工程等任务上,提升模型的 Agentic 能力,让模型在高复杂度真实任务上达到行业前沿水平;
构建复杂、多样、多模态、可验证的 RL 环境,在复杂 harness 上开展 blackbox RL 训练,提升模型在长程、多工具、真实环境中的规划、执行与反思能力;
研究超长程任务下的多智能体协作、长程记忆与跨任务经验的积累复用;
建设可规模化的 Agent 训练环境与评测体系。
4. Reasoning
探索 RL Scaling Law,提升模型 general 的真实推理与反思能力(而非仅在特定任务或 Benchmark 上的表现)
在人类智能密度最高的领域(如顶尖数学、竞赛编程、前沿科学等)持续突破,向达到乃至超过人类顶尖水平的方向迈进。
推动推理与工具使用、真实环境的结合,并提升模型思考效率及 adaptive thinking 的能力。
任职要求:
基础要求
基础能力:扎实的机器学习与深度学习基础,对大模型训练全流程(pretrain / mid-train / post-train)有深入理解;
解决问题:逻辑严密的分析能力,能从复杂现象中抽象出底层问题并给出系统性方案;
专业能力:深刻理解并能解决 RL 训练中的核心问题,包括 Reward Hacking、Training Stability、Exploration Efficiency,以及长程信用分配、环境噪声 / 非-policy 负向 reward、训推一致性等真实工程化挑战;
动手能力:优秀的算法实现能力与工程性能感知,具备优秀的数据敏锐度,能从数据中提炼出让模型效果突破的 insight。
加分项
研究成果:在 NeurIPS、ICLR、ICML、CVPR、ACL 等顶级会议发表过高水平成果,或主导过知名开源项目者优先;
工程与系统:熟悉大规模 RL 训练基础设施(rollout / 采样加速、sandbox 与 trajectory replay、训推框架),或有 agent harness / 可验证环境搭建经验者优先;
敏锐的直觉和探索精神:具备极强的好奇心,能在高度不确定的无人区中通过严谨实验寻找确定性;不满足于优化已有 Benchmark,而对"模型是否真的在理解、在进化"保持极度敏感。
团队简介
我们是 Dots 基座大模型的 Post-train 团队。我们相信,模型不只是记住世界,而是真正学会在真实世界中思考、行动与自我成长。团队聚焦可验证奖励 RL、长程 agentic 智能、综合推理与自我演进等最前沿的方向,构建下一代能在复杂真实任务中可靠工作、并持续自我迭代的基座模型。
工作职责
在以下一个或多个方向进行深度攻关。
1. Frontier Research
Self Evolving:提升模型进行机器学习与大模型优化的能力,探索以 AI 加速 AI 研发的新范式:让模型参与到自身的训练、部署及 Agent 调度机制的迭代中,把改进的对象从"模型本身"抬升到"产生模型的研发流程",构建可递归的能力增益回路,持续寻找下一代能力增长曲线。
Lifelong Learning:探索模型"学会学习"的 Meta 能力:让模型在与陌生、开放环境的在线交互中持续更新自身内部状态,无需重新训练即可积累经验,不断提升长期的 decision making 与任务完成能力。
Scalable Oversigh:在难以 verify 的 fuzzy / 开放式任务上,突破人类监督的扩展性瓶颈:研究可扩展的监督、自我评估与自我修正机制,让监督信号的质量能随模型能力一同增长,降低对外部人工反馈的依赖。
2. RL Algorithms
研究面向长程、多轮、稀疏奖励场景的 RL 算法,系统性解决信用分配、训练稳定性、探索效率等核心问题;
设计更有效、更鲁棒的奖励与评估信号,缓解 reward hacking、验证误差与奖励噪声对训练的干扰;
研发 Adaptive Thinking,使模型按任务复杂度动态调整思考深度,在保证效果的同时实现高效推理;
探索新的优化目标与训练范式,显著提升长程、稀疏奖励任务的收敛速度与样本效率;
与 infra / 工程团队协同,推进 rollout 加速、环境稳定性、训推一致性等工程化瓶颈的解决。
3. Agentic Intelligence
在 Proactive Agent、CLI/GUI 计算机控制,高价值专业知识任务、深度信息获取、 软件工程等任务上,提升模型的 Agentic 能力,让模型在高复杂度真实任务上达到行业前沿水平;
构建复杂、多样、多模态、可验证的 RL 环境,在复杂 harness 上开展 blackbox RL 训练,提升模型在长程、多工具、真实环境中的规划、执行与反思能力;
研究超长程任务下的多智能体协作、长程记忆与跨任务经验的积累复用;
建设可规模化的 Agent 训练环境与评测体系。
4. Reasoning
探索 RL Scaling Law,提升模型 general 的真实推理与反思能力(而非仅在特定任务或 Benchmark 上的表现)
在人类智能密度最高的领域(如顶尖数学、竞赛编程、前沿科学等)持续突破,向达到乃至超过人类顶尖水平的方向迈进。
推动推理与工具使用、真实环境的结合,并提升模型思考效率及 adaptive thinking 的能力。
任职要求:
基础要求
基础能力:扎实的机器学习与深度学习基础,对大模型训练全流程(pretrain / mid-train / post-train)有深入理解;
解决问题:逻辑严密的分析能力,能从复杂现象中抽象出底层问题并给出系统性方案;
专业能力:深刻理解并能解决 RL 训练中的核心问题,包括 Reward Hacking、Training Stability、Exploration Efficiency,以及长程信用分配、环境噪声 / 非-policy 负向 reward、训推一致性等真实工程化挑战;
动手能力:优秀的算法实现能力与工程性能感知,具备优秀的数据敏锐度,能从数据中提炼出让模型效果突破的 insight。
加分项
研究成果:在 NeurIPS、ICLR、ICML、CVPR、ACL 等顶级会议发表过高水平成果,或主导过知名开源项目者优先;
工程与系统:熟悉大规模 RL 训练基础设施(rollout / 采样加速、sandbox 与 trajectory replay、训推框架),或有 agent harness / 可验证环境搭建经验者优先;
敏锐的直觉和探索精神:具备极强的好奇心,能在高度不确定的无人区中通过严谨实验寻找确定性;不满足于优化已有 Benchmark,而对"模型是否真的在理解、在进化"保持极度敏感。
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!