小红书(xiaohongshu)招聘大模型 Infra 全栈研发工程师/专家
招聘职位:
大模型 Infra 全栈研发工程师/专家 搜索同类职位
岗位职责:
工作职责:
1.端到端训练引擎建设: 参与开源大模型RL训练引擎Relax研发,突破 RLHF/DPO/GRPO/RLVR 等对齐技术的工程瓶颈,基于 Megatron/veRL 等框架优化分布式并行与动态协同,解决千卡规模下的显存与通信痛点。
2.推理框架与MaaS系统建设: 研发面向 LLM/MLLM/DiT 的高性能推理服务框架,主导 KV Router、PD 分离及请求动态调度能力建设,基于 vLLM、SGLang 等建设万亿级 Token 并行推理与服务高可用架构。
3.大模型加速算法落地: 探索并落地大语言模型及多模态模型的低比特量化(W8A8/W4A8等)、投机采样、CoT压缩、蒸馏、剪枝等算法,支持各业务大幅降低推理成本。
4.异构计算与底层优化: 主导基于国产异构计算芯片(昇腾 NPU 等)及主流 GPU 的软硬协同优化,负责 AI 框架适配、模型移植、关键算子开发与性能优化,实现高吞吐与低延迟的推理系统。
5.探索 Agentic AI Infra 研发范式: 将 AI 工具深度融入 Infra 开发链路,熟练运用 AI 编程工具进行架构探索、复杂 Debug 与重构,大幅提升 AI Infra 全栈工程的迭代效率。
任职要求:
任职要求:
1.AI 工程范式:熟练使用 Claude Code、Cursor、Codex 等工具,具备成熟的 Agentic Engineering 实践技巧,能够基于 AI 工具进行复杂的系统级 Debug、代码重构及单测生成。
2.语言与系统基础:精通 C++ 与 Python,熟悉 Rust 或 Golang 开发,具备扎实的计算机体系结构、数据结构与操作系统底层知识,有深度学习相关框架的理解认知。
3.框架实战能力:深入理解并具备修改 PyTorch 等主流深度学习框架源码的能力,对前沿模型架构有敏锐嗅觉,熟悉 Transformer、ViT,并对 Mamba、Linear Attention 等新型架构的计算特性有了解。需在以下至少一个方向有实战经验:
(1)训练: 掌握 RLHF/DPO 全流程,精通 3D 并行(TP/PP/DP)、序列并行及 ZeRO 策略,熟悉大规模集群 GPU 调度容错机制。
(2)推理: 深入理解 vLLM、SGLang 等推理框架底层逻辑,精通 KV Cache 管理、PagedAttention、Chunked Prefill 等技术。
(3)压缩: 精通 SmoothQuant、AWQ、GPTQ 等量化算法,有大模型或多模态模型压缩落地的成功经验。
4.底层性能优化:具备面向大模型性能优化的底层认知,覆盖芯片架构、通信机制与 Kernel 性能调优,并能在大规模集群场景下解决关键瓶颈:
(1)熟悉底层硬件架构(如 Nvidia GPU 或昇腾 NPU 的 Tensor Core、内存层级体系)与基础软件栈(CUDA / ROCm / CANN)。
(2)掌握 NCCL / RDMA / IB / RoCE 等高性能网络通信机制,能解决千卡规模下的跨节点通信瓶颈。
(3)具备高性能 CUDA Kernel 相关研发经验,能熟练使用 Nsight Systems/Compute 等工具进行 Profiling 与算子优化。
加分项:
1.参与过主流开源大模型框架(如Megatron、veRL 、vLLM、SGLang、DeepSpeed等)的代码贡献与架构设计。
2.在大规模集群建设中,成功解决过跨机房通信、动态容错训练、或国产化异构芯片大规模业务替代等生产级难题。
3.具备较高的代码品味和工程洁癖,熟练配置和使用高效终端开发环境(如 Vim/Neovim、Ghostty、iTerm2 等)。
4.在大模型系统级顶会(如 SOSP, OSDI, MLSys 等)发表过高水平学术论文。
工作职责:
1.端到端训练引擎建设: 参与开源大模型RL训练引擎Relax研发,突破 RLHF/DPO/GRPO/RLVR 等对齐技术的工程瓶颈,基于 Megatron/veRL 等框架优化分布式并行与动态协同,解决千卡规模下的显存与通信痛点。
2.推理框架与MaaS系统建设: 研发面向 LLM/MLLM/DiT 的高性能推理服务框架,主导 KV Router、PD 分离及请求动态调度能力建设,基于 vLLM、SGLang 等建设万亿级 Token 并行推理与服务高可用架构。
3.大模型加速算法落地: 探索并落地大语言模型及多模态模型的低比特量化(W8A8/W4A8等)、投机采样、CoT压缩、蒸馏、剪枝等算法,支持各业务大幅降低推理成本。
4.异构计算与底层优化: 主导基于国产异构计算芯片(昇腾 NPU 等)及主流 GPU 的软硬协同优化,负责 AI 框架适配、模型移植、关键算子开发与性能优化,实现高吞吐与低延迟的推理系统。
5.探索 Agentic AI Infra 研发范式: 将 AI 工具深度融入 Infra 开发链路,熟练运用 AI 编程工具进行架构探索、复杂 Debug 与重构,大幅提升 AI Infra 全栈工程的迭代效率。
任职要求:
任职要求:
1.AI 工程范式:熟练使用 Claude Code、Cursor、Codex 等工具,具备成熟的 Agentic Engineering 实践技巧,能够基于 AI 工具进行复杂的系统级 Debug、代码重构及单测生成。
2.语言与系统基础:精通 C++ 与 Python,熟悉 Rust 或 Golang 开发,具备扎实的计算机体系结构、数据结构与操作系统底层知识,有深度学习相关框架的理解认知。
3.框架实战能力:深入理解并具备修改 PyTorch 等主流深度学习框架源码的能力,对前沿模型架构有敏锐嗅觉,熟悉 Transformer、ViT,并对 Mamba、Linear Attention 等新型架构的计算特性有了解。需在以下至少一个方向有实战经验:
(1)训练: 掌握 RLHF/DPO 全流程,精通 3D 并行(TP/PP/DP)、序列并行及 ZeRO 策略,熟悉大规模集群 GPU 调度容错机制。
(2)推理: 深入理解 vLLM、SGLang 等推理框架底层逻辑,精通 KV Cache 管理、PagedAttention、Chunked Prefill 等技术。
(3)压缩: 精通 SmoothQuant、AWQ、GPTQ 等量化算法,有大模型或多模态模型压缩落地的成功经验。
4.底层性能优化:具备面向大模型性能优化的底层认知,覆盖芯片架构、通信机制与 Kernel 性能调优,并能在大规模集群场景下解决关键瓶颈:
(1)熟悉底层硬件架构(如 Nvidia GPU 或昇腾 NPU 的 Tensor Core、内存层级体系)与基础软件栈(CUDA / ROCm / CANN)。
(2)掌握 NCCL / RDMA / IB / RoCE 等高性能网络通信机制,能解决千卡规模下的跨节点通信瓶颈。
(3)具备高性能 CUDA Kernel 相关研发经验,能熟练使用 Nsight Systems/Compute 等工具进行 Profiling 与算子优化。
加分项:
1.参与过主流开源大模型框架(如Megatron、veRL 、vLLM、SGLang、DeepSpeed等)的代码贡献与架构设计。
2.在大规模集群建设中,成功解决过跨机房通信、动态容错训练、或国产化异构芯片大规模业务替代等生产级难题。
3.具备较高的代码品味和工程洁癖,熟练配置和使用高效终端开发环境(如 Vim/Neovim、Ghostty、iTerm2 等)。
4.在大模型系统级顶会(如 SOSP, OSDI, MLSys 等)发表过高水平学术论文。
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!