腾讯(tencent)招聘微信-WeLM 大模型 RL 环境构建研发工程师(深圳、上海)
招聘职位:
微信-WeLM 大模型 RL 环境构建研发工程师(深圳、上海) 搜索同类职位
岗位职责:
1.环境沙箱构建:设计并实现支持 RL环境 执行代码、操作 API 或进行多步推理的隔离沙箱环境(基于 Docker, WebAssembly 或 VM);
2.交互协议定义:优化 RL 训练与环境之间的 Observation/Action 循环,提升工具调用的准确率;
3.自动化评价体系:构建针对特定场景(如数据分析、自动化办公、软件工程)的评测基座(Benchmark),客观衡量执行成功率;
4.前沿技术探索:研究如何通过环境反馈(Environment Feedback)进行强化学习(RLHF/RLAIF),加速模型的迭代进化。
岗位要求:
1.扎实的计算机基础:优秀的编程能力(Python/Go/C++ 至少精通一门),熟悉 Linux 系统和容器化技术;
2.熟悉 ReAct、AutoGPT、LangChain 或 AutoGen 等开源框架,对 LLM 调用工具有实战经验或深度思考;
3.解决问题的韧性:RL 执行环境往往涉及复杂的依赖管理和安全隔离,需要你有较强的 Debug 能力和工程直觉。
加分项:
有顶会论文(ACL, EMNLP, NeurIPS 等)、知名开源项目贡献经历,或在复杂系统设计方面有经验者优先。
1.环境沙箱构建:设计并实现支持 RL环境 执行代码、操作 API 或进行多步推理的隔离沙箱环境(基于 Docker, WebAssembly 或 VM);
2.交互协议定义:优化 RL 训练与环境之间的 Observation/Action 循环,提升工具调用的准确率;
3.自动化评价体系:构建针对特定场景(如数据分析、自动化办公、软件工程)的评测基座(Benchmark),客观衡量执行成功率;
4.前沿技术探索:研究如何通过环境反馈(Environment Feedback)进行强化学习(RLHF/RLAIF),加速模型的迭代进化。
岗位要求:
1.扎实的计算机基础:优秀的编程能力(Python/Go/C++ 至少精通一门),熟悉 Linux 系统和容器化技术;
2.熟悉 ReAct、AutoGPT、LangChain 或 AutoGen 等开源框架,对 LLM 调用工具有实战经验或深度思考;
3.解决问题的韧性:RL 执行环境往往涉及复杂的依赖管理和安全隔离,需要你有较强的 Debug 能力和工程直觉。
加分项:
有顶会论文(ACL, EMNLP, NeurIPS 等)、知名开源项目贡献经历,或在复杂系统设计方面有经验者优先。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!