腾讯(tencent)招聘AI智能体/大模型评测高级工程师
招聘职位:
AI智能体/大模型评测高级工程师 搜索同类职位
岗位职责:
1.负责腾讯自研龙虾WorkBuddy/腾讯AI IDE CodeBuddy产品质量保障及AI评测工作,推动产品质量体系,生成效果提升;
2.负责大语言模型(LLM)及Agent系统的评测体系设计与持续演进,覆盖模型能力评测、Agent任务评测、端到端产品功能评测等,构建Benchmark;
3.跟踪业界评测基准动态(如 SWE-bench、HumanEval、MMLU、AgentBench 等),结合业务场景进行适配与创新;
4.从无到有参与产品AI评测算法、评测标准和评测流程制定,构建评测集、评测执行器,推进评测刚才体系建设。
岗位要求:
1.本科及以上学历,计算机科学、软件工程、人工智能或相关专业;
2.熟练掌握 Python,具备脚本开发与数据处理能力;熟悉业界主流LLM评测基准与方法论(HumanEval、SWE-bench、MMLU、GSM8K等);
3.了解大语言模型的基本原理(Transformer架构、预训练、微调、RLHF、推理优化等)。有主流深度学习框架(PyTorch / TensorFlow / JAX)的实践经验者优先;
4.具备Agen开发或测试经验,了解ReAct、Function Calling、Tool Use、Planning等核心概念;
5.有评测平台或自动化测试框架的开发经验者优先;具备数据分析能力,能从评测数据中提炼有价值的洞察。
岗位介绍:
在腾讯,优秀的技术质量管理,保证腾讯每一个的产品与服务能更加稳定、顺畅、安心地被用户使用和体验。与技艺高超的同事们一同深化对架构设计、数据和产品的理解,在美好向善的世界里,成为一块闪耀的基石。
1.负责腾讯自研龙虾WorkBuddy/腾讯AI IDE CodeBuddy产品质量保障及AI评测工作,推动产品质量体系,生成效果提升;
2.负责大语言模型(LLM)及Agent系统的评测体系设计与持续演进,覆盖模型能力评测、Agent任务评测、端到端产品功能评测等,构建Benchmark;
3.跟踪业界评测基准动态(如 SWE-bench、HumanEval、MMLU、AgentBench 等),结合业务场景进行适配与创新;
4.从无到有参与产品AI评测算法、评测标准和评测流程制定,构建评测集、评测执行器,推进评测刚才体系建设。
岗位要求:
1.本科及以上学历,计算机科学、软件工程、人工智能或相关专业;
2.熟练掌握 Python,具备脚本开发与数据处理能力;熟悉业界主流LLM评测基准与方法论(HumanEval、SWE-bench、MMLU、GSM8K等);
3.了解大语言模型的基本原理(Transformer架构、预训练、微调、RLHF、推理优化等)。有主流深度学习框架(PyTorch / TensorFlow / JAX)的实践经验者优先;
4.具备Agen开发或测试经验,了解ReAct、Function Calling、Tool Use、Planning等核心概念;
5.有评测平台或自动化测试框架的开发经验者优先;具备数据分析能力,能从评测数据中提炼有价值的洞察。
岗位介绍:
在腾讯,优秀的技术质量管理,保证腾讯每一个的产品与服务能更加稳定、顺畅、安心地被用户使用和体验。与技艺高超的同事们一同深化对架构设计、数据和产品的理解,在美好向善的世界里,成为一块闪耀的基石。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!