哔哩哔哩(bilibili|b站)招聘客户端SDK开发leader(游戏业务)
招聘职位:
客户端SDK开发leader(游戏业务) 搜索同类职位
岗位介绍:
职位描述
工作职责:
1.大模型训练&推理资源调度系统的设计与开发,服务于各算法方向的大模型训练、模型评估和模型推理场景;
2.优化大规模分布式异构计算集群编排调度,实现潮汐调度、混部调度能力,提升GPU资源利用率;
3.与算法和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理;
工作要求:
1.计算机科学、软件工程、人工智能或相关专业本科及以上学历,5年以上分布式系统、资源调度或大规模计算相关经验;
2.精通Python/Go/Java/C++至少一种主流编程语言,具有良好的代码风格和开发习惯;
3.熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验;
4.熟悉常见的机器学习和深度学习框架,如TensorFlow、PyTorch、XGBoost等;
5.具备优秀的沟通能力和团队协作精神,能够有效地与跨职能团队合作,推动项目顺利进行;
加分项:
1.参与或主导过机器学习训练框架的设计与开发,熟悉分布式训练、模型并行等技术,有优化训练效率的实战经验,包括但不限于Horovod/MXNet/Megatron/DeepSpeed等;
2.熟悉Ray分布式框架,有大模型场景近离线推理场景落地实践经验;
3.熟悉Kubeflow/Argo/Volcano 等开源云原生项目,有二次开发经验;
4.在知名开源项目中有活跃贡献,或者拥有自主开发的开源项目;
5.在机器学习、分布式系统、深度学习等领域有前沿技术研究成果,或在顶级会议/期刊上有相关论文发表
投递简历
职位描述
工作职责:
1.大模型训练&推理资源调度系统的设计与开发,服务于各算法方向的大模型训练、模型评估和模型推理场景;
2.优化大规模分布式异构计算集群编排调度,实现潮汐调度、混部调度能力,提升GPU资源利用率;
3.与算法和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理;
工作要求:
1.计算机科学、软件工程、人工智能或相关专业本科及以上学历,5年以上分布式系统、资源调度或大规模计算相关经验;
2.精通Python/Go/Java/C++至少一种主流编程语言,具有良好的代码风格和开发习惯;
3.熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验;
4.熟悉常见的机器学习和深度学习框架,如TensorFlow、PyTorch、XGBoost等;
5.具备优秀的沟通能力和团队协作精神,能够有效地与跨职能团队合作,推动项目顺利进行;
加分项:
1.参与或主导过机器学习训练框架的设计与开发,熟悉分布式训练、模型并行等技术,有优化训练效率的实战经验,包括但不限于Horovod/MXNet/Megatron/DeepSpeed等;
2.熟悉Ray分布式框架,有大模型场景近离线推理场景落地实践经验;
3.熟悉Kubeflow/Argo/Volcano 等开源云原生项目,有二次开发经验;
4.在知名开源项目中有活跃贡献,或者拥有自主开发的开源项目;
5.在机器学习、分布式系统、深度学习等领域有前沿技术研究成果,或在顶级会议/期刊上有相关论文发表
投递简历
免责声明:
此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!