查看更多分享

腾讯(tencent)招聘QClaw-端侧AI模型推理加速专家（深圳/北京/上海）

招聘职位：

QClaw-端侧AI模型推理加速专家（深圳/北京/上海） 搜索同类职位

发布日期：: 2026-05-28
工作地点：: 深圳
职位类型：: 全职
职位类别：: 技术
来源：: 腾讯官网

岗位职责：
1.聚焦办公 PC、手机消费级终端大模型推理优化，负责端侧推理引擎性能调优，保障本地离线大模型平稳高效运行；
2.运用模型蒸馏、量化压缩、KV 缓存优化等轻量化技术，在保证效果前提下，降低端侧推理延迟、内存占用与硬件功耗；
3.负责端侧模型格式转换、算子适配与PC / 手机异构算力调度，充分调用 CPU、独显、端侧 NPU 算力，最大化设备推理性能；
4.对接 Intel、AMD 桌面端 AI 生态，适配本地推理服务框架，完成与上层业务框架快速集成落地；
5.梳理 PC 与手机端推理性能瓶颈，输出标准化优化方案，协同团队完成本地大模型方案规模化落地；
6.持续跟进桌面端、移动端轻量化推理前沿技术，优化本地离线推理体验。
岗位要求：
1.熟悉 PC、手机端 CPU/GPU/NPU 异构开发，掌握 Intel OpenVINO、AMD Ryzen AI、移动端 NPU 加速技术，具备端侧推理加速实战经验；
2.深入理解大模型基础架构，熟悉端侧推理核心性能瓶颈，精通量化、算子优化、内存调度、模型蒸馏等主流轻量化优化方案；
3.熟练掌握 C/C++、Python，熟悉 Windows 与移动端开发环境，具备端侧模型编译、调试与部署能力；
4.熟练使用 llama.cpp、移动端推理框架、本地 PC 推理服务等主流端侧推理组件，精通本地大模型完整部署流程；
5.能够独立解决 PC、手机端推理卡顿、内存溢出、量化精度损失、启动慢等线上实际问题；
6.工作踏实主动，具备良好跨团队沟通能力，具备较强技术钻研与落地能力。
岗位介绍：
在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神，同时欢迎你一起参与团队愿景、文化和产品方向的探讨。

前往官网投递

免责声明：

此信息由腾讯官网 (查看来源)审核并发布，我们转载该信息，仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台，不构成求职建议，不涉及任何职业中介服务，不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎，自行判断并承担相应风险，求职请认准企业官方渠道！

上一职位：腾讯(tencent)QQ-#后台AI应用开发工程师#

下一职位：小红书「电商 CRM」- 产品经理

腾讯(tencent)招聘QClaw-端侧AI模型推理加速专家（深圳/北京/上海）

招聘职位：

FAQ 腾讯(tencent)招聘常见问答

投递进展笔记

求职进度

进展结果

发生时间

求职体验

是否匿名

提示