查看更多分享

小红书(xiaohongshu)招聘【dots】通用基模posttrain算法工程师

招聘职位：

【dots】通用基模posttrain算法工程师 搜索同类职位

发布日期：: 2026-04-22
工作地点：: 北京市
上海市
杭州市
职位类型：: 全职
职位类别：: 大模型
来源：: 小红书官网

岗位职责：
我们相信，通向更高阶智能的路径不止于更大的 LLM。
Post-Training 正在成为模型能力跃迁的关键阶段：从“学会语言”走向“理解世界、优化行为、持续进化”。该岗位将深度参与多模态、强化学习、自进化 Agent 系统等前沿方向，探索超越纯预训练范式的新能力边界，构建可持续学习、可记忆、可进化的智能系统。

1. Post-Training 核心研究与系统构建
设计并实现面向推理能力、策略优化和长期表现的后训练方法
探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法
将 Post-Training 视为系统级优化问题，而非单次调参或 reward hacking
2. 强化学习与持续进化机制
设计基于试错和反馈的训练闭环（例如，Natural Language FeedBack），使模型具备自我修正和能力生长
探索 RL 在边缘能力、长尾任务、工具使用和复杂决策中的作用
研究长期学习（Lifelong Learning）、稳定性、遗忘控制等关键问题
3. 多模态与“世界建模”
参与多模态模型（尤其是视频、时序感知）的 Post-Training 研究
探索从“语言建模”走向“世界建模”的训练目标与评估方式
研究感知、行动与决策的联合优化，而非简单模态拼接
4. Agent 与自进化系统
构建“可训练的 Agent 系统”，而不仅是工具调用的外壳
设计 Agent 的记忆、学习、反思与策略更新机制
将 Agent 视为一个持续演化的产品级智能体
5. 新范式与新架构探索
对现有 Attention、NTP 等范式保持批判性思考，例如探索全新的
探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性
参与从模型 → 推理过程 → 自学习环境（System-level Scaling）的演进
任职要求：
基础要求
扎实的机器学习 / 深度学习基础，对模型训练全流程有深入理解
熟悉至少一个方向：
强化学习（RL Scaling / RLAIF / Online RL 等）
多模态学习（尤其是视频、时序、感知建模）
Agent / 多智能体系统
良好的工程能力，能将研究想法落地为稳定系统

加分项
有大模型 Post-Training 或 MOE RL Scaling 实战经验
RL Algo & Infra co-design
对 Token 效率、推理效率、多尺度学习等问题有深入思考
参与过 Agent 系统或复杂训练闭环的设计
有“系统思维”，不满足于单点指标提升

前往官网投递

免责声明：

此信息由小红书官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：美团(meituan)歪马送酒-自有品牌品牌经理

下一职位：小红书「电商 CRM」- 产品经理