哔哩哔哩(bilibili|b站)招聘资深产品经理(机审模型)
招聘职位:
资深产品经理(机审模型) 搜索同类职位
岗位介绍:
职位描述
工作职责:
1. 平台架构规划与建设: 负责公司大模型训练与推理平台的整体架构设计、技术选型与演进规划,打造高性能、高可用的AI基础设施平台。
2. GPU资源调度与编排: 主导大规模GPU集群的编排调度系统搭建,优化训练任务与推理服务的资源分配策略,最大化提升GPU利用率与集群整体效能。
3. 训练与推理全链路优化: 搭建并优化大规模分布式训练流水线;同时构建高效、低延迟的推理服务模块,保障模型从训练到上线的全生命周期管理。
4. 团队管理与人才培养: 负责研发与技术团队管理,包括人员招聘、梯队建设、绩效评估及日常技术指导,营造高效、创新的团队技术氛围。
5. 跨部门协同与业务赋能: 与算法、业务团队紧密配合,深入理解业务需求,提供稳定可靠的底层平台支撑,推动大模型技术在业务场景中的快速落地。
工作要求:
任职要求:
1. 学历与经验背景: 计算机、人工智能、数学等相关专业本科及以上学历;5年以上后端/基础架构研发经验,3年以上AI平台、云计算或大规模分布式系统相关经验。
2. 核心技术栈: 精通Go/Python/C++中至少一门编程语言;深入理解Linux操作系统、网络协议及容器化技术(Docker/Kubernetes),具备大规模K8s集群的运维与二次开发能力。
3. GPU与调度系统经验: 精通GPU虚拟化、资源隔离与调度技术;熟悉主流调度框架(如Volcano、YuniKorn等)或具备自研GPU调度系统经验者优先;对提升GPU集群利用率有成熟的方法论和实战经验。
4. 大模型训练/推理经验: 熟悉主流深度学习框架(PyTorch/TensorFlow等);深入理解大模型分布式训练原理(如数据并行、模型并行、流水线并行等);有视频生成模型(如Sora、Stable Video Diffusion等)训练平台搭建或优化经验者优先。
5. 架构设计与工程能力: 具备优秀的系统架构设计能力,能够处理高并发、高吞吐的复杂工程挑战;熟悉MLOps理念,有完整的模型训练、评估、部署流水线建设经验。
6. 综合素质: 具备极强的技术前瞻性与业务洞察力,优秀的团队领导力、沟通协调能力及抗压能力,能够带领团队在快速变化的技术环境中持续突破。
加分项:
1. 有千卡/万卡级别GPU集群的实际调度与管理经验。
2. 在顶级技术会议(如OSDI, SOSP, NeurIPS等)发表过相关论文,或有知名开源项目(如Kubernetes, PyTorch生态等)的核心贡献。
3. 具备从0到1搭建视频生成大模型平台的完整成功案例。
投递简历
职位描述
工作职责:
1. 平台架构规划与建设: 负责公司大模型训练与推理平台的整体架构设计、技术选型与演进规划,打造高性能、高可用的AI基础设施平台。
2. GPU资源调度与编排: 主导大规模GPU集群的编排调度系统搭建,优化训练任务与推理服务的资源分配策略,最大化提升GPU利用率与集群整体效能。
3. 训练与推理全链路优化: 搭建并优化大规模分布式训练流水线;同时构建高效、低延迟的推理服务模块,保障模型从训练到上线的全生命周期管理。
4. 团队管理与人才培养: 负责研发与技术团队管理,包括人员招聘、梯队建设、绩效评估及日常技术指导,营造高效、创新的团队技术氛围。
5. 跨部门协同与业务赋能: 与算法、业务团队紧密配合,深入理解业务需求,提供稳定可靠的底层平台支撑,推动大模型技术在业务场景中的快速落地。
工作要求:
任职要求:
1. 学历与经验背景: 计算机、人工智能、数学等相关专业本科及以上学历;5年以上后端/基础架构研发经验,3年以上AI平台、云计算或大规模分布式系统相关经验。
2. 核心技术栈: 精通Go/Python/C++中至少一门编程语言;深入理解Linux操作系统、网络协议及容器化技术(Docker/Kubernetes),具备大规模K8s集群的运维与二次开发能力。
3. GPU与调度系统经验: 精通GPU虚拟化、资源隔离与调度技术;熟悉主流调度框架(如Volcano、YuniKorn等)或具备自研GPU调度系统经验者优先;对提升GPU集群利用率有成熟的方法论和实战经验。
4. 大模型训练/推理经验: 熟悉主流深度学习框架(PyTorch/TensorFlow等);深入理解大模型分布式训练原理(如数据并行、模型并行、流水线并行等);有视频生成模型(如Sora、Stable Video Diffusion等)训练平台搭建或优化经验者优先。
5. 架构设计与工程能力: 具备优秀的系统架构设计能力,能够处理高并发、高吞吐的复杂工程挑战;熟悉MLOps理念,有完整的模型训练、评估、部署流水线建设经验。
6. 综合素质: 具备极强的技术前瞻性与业务洞察力,优秀的团队领导力、沟通协调能力及抗压能力,能够带领团队在快速变化的技术环境中持续突破。
加分项:
1. 有千卡/万卡级别GPU集群的实际调度与管理经验。
2. 在顶级技术会议(如OSDI, SOSP, NeurIPS等)发表过相关论文,或有知名开源项目(如Kubernetes, PyTorch生态等)的核心贡献。
3. 具备从0到1搭建视频生成大模型平台的完整成功案例。
投递简历
免责声明:
此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!