查看更多分享

腾讯(tencent)招聘混元语音与音频理解方向研究员（语音理解方向）（北京/深圳/上海）

招聘职位：

混元语音与音频理解方向研究员（语音理解方向）（北京/深圳/上海） 搜索同类职位

发布日期：: 2025-10-27
工作地点：: 深圳
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系，以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队，围绕以下关键研究任务开展工作：；
2.研发具备通用能力的端到端语音大模型，包括多语言语音识别、语音翻译、副语言信息理解，音频理解等；
3.推进语音表征学习与语音编码/解码架构研究，构建适用于多任务、多模态的统一声学表征；
4.探索音频和语音在多模态大模型中的表征对齐与融合机制，与图像、文本联合建模；
5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。
岗位要求：
1.计算机、电子工程、人工智能、语言学或相关领域博士，或硕士加多年相关工作经验；
2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构；
3.熟练掌握语音识别，语音翻译等一项多多项系统开发流程，具有多语言、多任务或端到端系统经验者优先；
4.对以下方向具备深入研究或实践经验者优先：；
5.语音表征预训练（如 HuBERT, Wav2Vec, Whisper 等）；
6.多模态对齐与跨模态建模（音视频和文本）；
7.有推动大模型在音频理解任务上达到 SOTA 性能的经验优先；
8.熟练掌握 PyTorch、TensorFlow等深度学习框架，有大规模训练与分布式系统经验者优先；
9.熟练 Transformer 类模型及其在语音、多模态领域的训练和推理。
部门介绍：
腾讯AI Lab是腾讯的公司级AI实验室，于2016年4月在深圳成立。借助腾讯丰富应用场景、大数据、计算力及一流人才方面的长期积累，AI Lab立足未来，开放合作，致力于不断提升AI的认知、决策与创造力，向“Make AI Everywhere”的愿景迈步。腾讯AI Lab强调研究与应用并重发展，基础研究关注机器学习、计算机视觉、语音技术及自然语言处理等四大方向，780多篇研究论文已覆盖国际顶级学术会议；技术应用聚焦在游戏、数字人、内容、社交四大领域，在微信、QQ、广告、教育、金融等100多个产品中落地。行业应用不断取得突破，研发出屡获国际大奖的棋牌类AI「绝艺」，攻克MOBA、FPS、RTS、3D开放世界等多类游戏的决策智能AI「绝悟」，推进多模态虚拟人前沿技术，自研AI药物发现平台「云深」，同时重点推进 AI+Science 深度融合，从生命科学、AI制药到能源领域，多项研究成果发布于Nature子刊、NeurIPS、ICLR等学术顶刊顶会，解码基础科学，拓宽认知边界及前沿技术应用可能性。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯(tencent)《穿越火线》高清竞技大区-商业化运营-新星引力计划

下一职位：小红书「蒲公英」- B端产品经理

腾讯(tencent)招聘混元语音与音频理解方向研究员（语音理解方向）（北京/深圳/上海）

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示