腾讯(tencent)招聘微信输入法/秒剪-大模型推理优化工程师-NLP 方向
招聘职位:
微信输入法/秒剪-大模型推理优化工程师-NLP 方向 搜索同类职位
岗位职责:
1.配合算法工程师,推动大模型相关算法的落地,打造高吞吐、低延迟的推理系统,在产品上实现快与准的交互体验;
2.探索面向高并发场景下(千万量级)的高性能推理服务架构,针对NVIDIA GPU、NPU等国产算力进行性能调优,包括算子融合、显存管理、计算图编译优化、Batching、KVCache管理,打造高效的推理服务架构,结合LLM能力实现业务的高效运转;
3.持续跟进业界最新Infra技术,如高效通信库、量化、稀疏蒸馏等训练部署方案,配合实际业务进行技术预研;
4.结合推理引擎和业务服务,优化动态流量调度、资源管理等结合业务实际情况的后台策略。
岗位要求:
1.具备扎实的编程语言基础,掌握 C++/Python/Golang 至少一门语言,熟悉Linux开发环境;
2.有vllm/sglang/Tensorrt-llm/FasterTransformer等大模型推理框架的实际使用经验;
3.熟悉CPU/GPU异构加速瓶颈分析方法,有服务器端/手机端AI芯片、GPU加速经验优先;
4.熟悉常用推理加速方法,有超大模型分布式部署经验优先。
加分项:
1.在计算机体系结构、分布式计算、或NLP相关高水平会议/期刊发表过论文;
2.获得过国际重大比赛奖项。
1.配合算法工程师,推动大模型相关算法的落地,打造高吞吐、低延迟的推理系统,在产品上实现快与准的交互体验;
2.探索面向高并发场景下(千万量级)的高性能推理服务架构,针对NVIDIA GPU、NPU等国产算力进行性能调优,包括算子融合、显存管理、计算图编译优化、Batching、KVCache管理,打造高效的推理服务架构,结合LLM能力实现业务的高效运转;
3.持续跟进业界最新Infra技术,如高效通信库、量化、稀疏蒸馏等训练部署方案,配合实际业务进行技术预研;
4.结合推理引擎和业务服务,优化动态流量调度、资源管理等结合业务实际情况的后台策略。
岗位要求:
1.具备扎实的编程语言基础,掌握 C++/Python/Golang 至少一门语言,熟悉Linux开发环境;
2.有vllm/sglang/Tensorrt-llm/FasterTransformer等大模型推理框架的实际使用经验;
3.熟悉CPU/GPU异构加速瓶颈分析方法,有服务器端/手机端AI芯片、GPU加速经验优先;
4.熟悉常用推理加速方法,有超大模型分布式部署经验优先。
加分项:
1.在计算机体系结构、分布式计算、或NLP相关高水平会议/期刊发表过论文;
2.获得过国际重大比赛奖项。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!