小红书招聘【Dots】大模型post train算法工程师-Frontier Research

招聘职位:

【Dots】大模型post train算法工程师-Frontier Research 搜索同类职位
发布日期:
2026-06-10
工作地点:
职位类型:
全职
职位类别:
大模型
来源:
小红书官网
岗位职责:
1、Self Evolving:提升模型进行机器学习与大模型优化的能力,探索以 AI 加速 AI 研发的新范式:让模型参与到自身的训练、部署及 Agent 调度机制的迭代中,把改进的对象从"模型本身"抬升到"产生模型的研发流程",构建可递归的能力增益回路,持续寻找下一代能力增长曲线。
2、Lifelong Learning:探索模型"学会学习"的 Meta 能力:让模型在与陌生、开放环境的在线交互中持续更新自身内部状态,无需重新训练即可积累经验,不断提升长期的 decision making 与任务完成能力。
3、Scalable Oversigh:在难以 verify 的 fuzzy / 开放式任务上,突破人类监督的扩展性瓶颈:研究可扩展的监督、自我评估与自我修正机制,让监督信号的质量能随模型能力一同增长,降低对外部人工反馈的依赖。

任职要求:
基础要求
基础能力:扎实的机器学习与深度学习基础,对大模型训练全流程(pretrain / mid-train / post-train)有深入理解;
解决问题:逻辑严密的分析能力,能从复杂现象中抽象出底层问题并给出系统性方案;
专业能力:深刻理解并能解决 RL 训练中的核心问题,包括 Reward Hacking、Training Stability、Exploration Efficiency,以及长程信用分配、环境噪声 / 非-policy 负向 reward、训推一致性等真实工程化挑战;
动手能力:优秀的算法实现能力与工程性能感知,具备优秀的数据敏锐度,能从数据中提炼出让模型效果突破的 insight。

加分项
研究成果:在 NeurIPS、ICLR、ICML、CVPR、ACL 等顶级会议发表过高水平成果,或主导过知名开源项目者优先;
工程与系统:熟悉大规模 RL 训练基础设施(rollout / 采样加速、sandbox 与 trajectory replay、训推框架),或有 agent harness / 可验证环境搭建经验者优先;
敏锐的直觉和探索精神:具备极强的好奇心,能在高度不确定的无人区中通过严谨实验寻找确定性;不满足于优化已有 Benchmark,而对"模型是否真的在理解、在进化"保持极度敏感。

免责声明:

此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 小红书招聘常见问答

小红书招聘工作地点:
北京市,上海市
小红书招聘经验要求:
no_limit