查看更多分享

腾讯(tencent)招聘混元LLM大模型量化压缩高级算法工程师（北京/深圳/上海）

招聘职位：

混元LLM大模型量化压缩高级算法工程师（北京/深圳/上海） 搜索同类职位

发布日期：: 2026-04-07
工作地点：: 深圳
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.深度参与LLM大模型压缩加速方案研究，包括不限于：；
2.投机采样：适配LLM模型架构特性，探索Prefill / RL等场景下优化加速方案；
3.稀疏化：Sparse Attention，KV-Cache压缩，模型结构剪枝等优化技术，协同框架定制化稀疏方案，提升模型推理性能；
4.量化：优化Transformer中 Linear/KV-Cache/Attention量化算法，适配FP8/INT8/NVFP4等量化方案及不同硬件后端。探索极低bit量化训练方案，深度协同硬件联合优化，实现模型体积极致压缩和性能突破，并推动实际业务落地；
5.新技术：聚焦长上下文，多轮对话优化等压缩加速优化技术研究；
6.设计可落地的大模型压缩算法及成本优化方案，助力大模型的性能加速，不限于模型结构/软硬协同优化；
7.分析业务性能瓶颈和模型特点，定制化开发大模型压缩优化工具，实现一站式模型压缩-部署的高速推理方案；
8.参与前沿的模型压缩加速算法研究，追踪领域前沿工作，撰写并发表顶会论文。
岗位要求：
1.熟悉深度学习算法基本原理，熟练掌握PyTorch，具备扎实的Python编程能力与工程实现能力；
2.熟悉主流LLM模型压缩算法体系，并且了解硬件及推理库上对于模型压缩的支持方案；
3.具有扎实的数理基础，熟悉常见的算法和数据结构，具有良好的编程习惯；
4.了解大模型算法基本原理，熟悉常见LLM大模型，有顶会论文发表者优先。
岗位介绍：
在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神，同时欢迎你一起参与团队愿景、文化和产品方向的探讨。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯(tencent)游戏技术音频

下一职位：小红书「蒲公英」- B端产品经理

腾讯(tencent)招聘混元LLM大模型量化压缩高级算法工程师（北京/深圳/上海）

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示