哔哩哔哩(bilibili|b站)招聘资深AIGC产品运营
招聘职位:
资深AIGC产品运营 搜索同类职位
岗位介绍:
职位描述
工作职责:
1.参与B站大模型训练平台建设,配合团队完成训练平台的架构细化与技术落地,参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代,保障训练平台基础功能稳定可靠;
2.参与大模型主流训练范式(预训练/后训练)的平台化集成工作,协助完成训练流程的标准化、自动化落地,降低算法团队训练门槛;
3.大模型训练全链路可观测性,参与设计并落地训练过程中的核心监控指标,为训练效率提升与问题定位提供数据支撑;
4.参与训练链路问题排查,配合算法与框架团队,跟踪大模型训练全链路,参与定位并解决训练过程中出现的平台层技术问题,如数据传输瓶颈、分布式训练通信异常等,保障训练任务顺利推进。
工作要求:
1.计算机科学、软件工程、人工智能或相关专业本科及以上学历,3年以上AI平台相关经验;
2.具备良好编码能力与扎实的算法功底,熟练掌握Python/Go/C++等至少一种主流编程语言,能高效完成模块开发与调试;
3.熟悉至少一种主流深度学习框架(PyTorch优先),了解其核心原理与分布式训练机制;
3.具备扎实的机器学习/深度学习基础,熟悉Transformer等核心算法,了解大模型训练逻辑与行业应用方向。
加分项:
1.参与过大模型训练平台或训练工具开发项目,熟悉DeepSpeed、Megatron-LM等训练框架的使用或集成经验者优先
2.有分布式训练任务调度、数据并行/模型并行相关实践经验,或参与过训练效率优化项目者优先。
3.了解K8s、MPI等分布式计算技术在大模型训练中的应用,或有GPU集群资源管理相关经验者优先。
4.在知名开源项目中有活跃贡献,或者拥有自主开发的开源项目;
5.在机器学习、分布式系统、深度学习等领域有前沿技术研究成果,或在顶级会议/期刊上有相关论文发表
投递简历
职位描述
工作职责:
1.参与B站大模型训练平台建设,配合团队完成训练平台的架构细化与技术落地,参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代,保障训练平台基础功能稳定可靠;
2.参与大模型主流训练范式(预训练/后训练)的平台化集成工作,协助完成训练流程的标准化、自动化落地,降低算法团队训练门槛;
3.大模型训练全链路可观测性,参与设计并落地训练过程中的核心监控指标,为训练效率提升与问题定位提供数据支撑;
4.参与训练链路问题排查,配合算法与框架团队,跟踪大模型训练全链路,参与定位并解决训练过程中出现的平台层技术问题,如数据传输瓶颈、分布式训练通信异常等,保障训练任务顺利推进。
工作要求:
1.计算机科学、软件工程、人工智能或相关专业本科及以上学历,3年以上AI平台相关经验;
2.具备良好编码能力与扎实的算法功底,熟练掌握Python/Go/C++等至少一种主流编程语言,能高效完成模块开发与调试;
3.熟悉至少一种主流深度学习框架(PyTorch优先),了解其核心原理与分布式训练机制;
3.具备扎实的机器学习/深度学习基础,熟悉Transformer等核心算法,了解大模型训练逻辑与行业应用方向。
加分项:
1.参与过大模型训练平台或训练工具开发项目,熟悉DeepSpeed、Megatron-LM等训练框架的使用或集成经验者优先
2.有分布式训练任务调度、数据并行/模型并行相关实践经验,或参与过训练效率优化项目者优先。
3.了解K8s、MPI等分布式计算技术在大模型训练中的应用,或有GPU集群资源管理相关经验者优先。
4.在知名开源项目中有活跃贡献,或者拥有自主开发的开源项目;
5.在机器学习、分布式系统、深度学习等领域有前沿技术研究成果,或在顶级会议/期刊上有相关论文发表
投递简历
免责声明:
此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!