腾讯(tencent)招聘QClaw-端侧AI模型推理加速专家(深圳/北京/上海)

招聘职位:

QClaw-端侧AI模型推理加速专家(深圳/北京/上海) 搜索同类职位
发布日期:
2026-05-28
工作地点:
职位类型:
全职
职位类别:
技术
来源:
腾讯官网
岗位职责:
1.聚焦办公 PC、手机消费级终端大模型推理优化,负责端侧推理引擎性能调优,保障本地离线大模型平稳高效运行;
2.运用模型蒸馏、量化压缩、KV 缓存优化等轻量化技术,在保证效果前提下,降低端侧推理延迟、内存占用与硬件功耗;
3.负责端侧模型格式转换、算子适配与PC / 手机异构算力调度,充分调用 CPU、独显、端侧 NPU 算力,最大化设备推理性能;
4.对接 Intel、AMD 桌面端 AI 生态,适配本地推理服务框架,完成与上层业务框架快速集成落地;
5.梳理 PC 与手机端推理性能瓶颈,输出标准化优化方案,协同团队完成本地大模型方案规模化落地;
6.持续跟进桌面端、移动端轻量化推理前沿技术,优化本地离线推理体验。
岗位要求:
1.熟悉 PC、手机端 CPU/GPU/NPU 异构开发,掌握 Intel OpenVINO、AMD Ryzen AI、移动端 NPU 加速技术,具备端侧推理加速实战经验;
2.深入理解大模型基础架构,熟悉端侧推理核心性能瓶颈,精通量化、算子优化、内存调度、模型蒸馏等主流轻量化优化方案;
3.熟练掌握 C/C++、Python,熟悉 Windows 与移动端开发环境,具备端侧模型编译、调试与部署能力;
4.熟练使用 llama.cpp、移动端推理框架、本地 PC 推理服务等主流端侧推理组件,精通本地大模型完整部署流程;
5.能够独立解决 PC、手机端推理卡顿、内存溢出、量化精度损失、启动慢等线上实际问题;
6.工作踏实主动,具备良好跨团队沟通能力,具备较强技术钻研与落地能力。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
免责声明:

此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!

FAQ 腾讯(tencent)招聘常见问答

腾讯(tencent)招聘工作地点:
深圳
腾讯(tencent)招聘经验要求:
五年以上工作经验