小红书招聘【Dots】大模型post train算法工程师-Frontier Research

招聘职位：

【Dots】大模型post train算法工程师-Frontier Research 搜索同类职位

发布日期：: 2026-06-10
工作地点：: 北京市
上海市
职位类型：: 全职
职位类别：: 大模型
来源：: 小红书官网

岗位职责：
1、Self Evolving：提升模型进行机器学习与大模型优化的能力，探索以 AI 加速 AI 研发的新范式：让模型参与到自身的训练、部署及 Agent 调度机制的迭代中，把改进的对象从"模型本身"抬升到"产生模型的研发流程"，构建可递归的能力增益回路，持续寻找下一代能力增长曲线。
2、Lifelong Learning：探索模型"学会学习"的 Meta 能力：让模型在与陌生、开放环境的在线交互中持续更新自身内部状态，无需重新训练即可积累经验，不断提升长期的 decision making 与任务完成能力。
3、Scalable Oversigh：在难以 verify 的 fuzzy / 开放式任务上，突破人类监督的扩展性瓶颈：研究可扩展的监督、自我评估与自我修正机制，让监督信号的质量能随模型能力一同增长，降低对外部人工反馈的依赖。

任职要求：
基础要求
基础能力:扎实的机器学习与深度学习基础,对大模型训练全流程(pretrain / mid-train / post-train)有深入理解;
解决问题:逻辑严密的分析能力,能从复杂现象中抽象出底层问题并给出系统性方案;
专业能力:深刻理解并能解决 RL 训练中的核心问题,包括 Reward Hacking、Training Stability、Exploration Efficiency,以及长程信用分配、环境噪声 / 非-policy 负向 reward、训推一致性等真实工程化挑战;
动手能力:优秀的算法实现能力与工程性能感知,具备优秀的数据敏锐度,能从数据中提炼出让模型效果突破的 insight。

加分项
研究成果:在 NeurIPS、ICLR、ICML、CVPR、ACL 等顶级会议发表过高水平成果,或主导过知名开源项目者优先;
工程与系统:熟悉大规模 RL 训练基础设施(rollout / 采样加速、sandbox 与 trajectory replay、训推框架),或有 agent harness / 可验证环境搭建经验者优先;
敏锐的直觉和探索精神:具备极强的好奇心,能在高度不确定的无人区中通过严谨实验寻找确定性;不满足于优化已有 Benchmark,而对"模型是否真的在理解、在进化"保持极度敏感。

前往官网投递

免责声明：

此信息由小红书官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯41299-服务器性能测试工程师(北京)

下一职位：小红书广告算法工程师-广告主工具方向

小红书招聘【Dots】大模型post train算法工程师-Frontier Research

招聘职位：

FAQ 小红书招聘常见问答

牛大妈找到相似职位