哔哩哔哩(bilibili|b站)招聘大模型数据开发工程师
招聘职位:
大模型数据开发工程师 搜索同类职位
岗位介绍:
职位描述
工作职责:
1、端到端数据流水线设计:负责设计、构建与优化面向大模型训练的超大规模多模态数据端到端处理流水线,覆盖数据获取、清洗、标注、质量验证到最终训练集生成的全过程。
2、高性能数据算子库开发:抽象和封装多模态数据(文本、图像、视频、音频)的通用处理逻辑,设计并实现高性能、可复用的数据算子库(如:图像解帧、语音识别、文本分词、质量过滤、数据增强等)。
3、训练数据Dataloader研发:深入跟进模型训练阶段,基于处理好的高质量数据集,研发与优化与PyTorch等训练框架无缝集成的高性Dataloader,确保训练过程中数据读取与加载的效率,解决I/O瓶颈,极大提升GPU利用率。
4、流水线编排与效率提升:研发灵活的配置化流水线引擎,支持原子算子的快速编排,并持续优化全链路的数据处理速度和资源效率,快速响应算法团队的数据需求。
5、质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响。
工作要求:
1、计算机科学、软件工程、大数据或相关专业本科及以上学历,有3年以上数据开发或算法工程经验。
2、精通Python,熟练使用Pandas、PyTorch等数据处理和深度学习框架,必须具备构建或优化训练数据Dataloader的实际经验。
3、深入理解多模态数据的特性及处理技术,具备丰富的数据建模和数据架构经验,能够设计统一、高效的数据处理抽象。
4、有使用Spark、Ray等分布式框架进行大规模数据处理的实战经验,理解其核心原理。
5、具备优秀的业务理解能力和跨团队(数据、算法、Infra)沟通协作精神,责任心强,有严谨的问题排查与优化
投递简历
职位描述
工作职责:
1、端到端数据流水线设计:负责设计、构建与优化面向大模型训练的超大规模多模态数据端到端处理流水线,覆盖数据获取、清洗、标注、质量验证到最终训练集生成的全过程。
2、高性能数据算子库开发:抽象和封装多模态数据(文本、图像、视频、音频)的通用处理逻辑,设计并实现高性能、可复用的数据算子库(如:图像解帧、语音识别、文本分词、质量过滤、数据增强等)。
3、训练数据Dataloader研发:深入跟进模型训练阶段,基于处理好的高质量数据集,研发与优化与PyTorch等训练框架无缝集成的高性Dataloader,确保训练过程中数据读取与加载的效率,解决I/O瓶颈,极大提升GPU利用率。
4、流水线编排与效率提升:研发灵活的配置化流水线引擎,支持原子算子的快速编排,并持续优化全链路的数据处理速度和资源效率,快速响应算法团队的数据需求。
5、质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响。
工作要求:
1、计算机科学、软件工程、大数据或相关专业本科及以上学历,有3年以上数据开发或算法工程经验。
2、精通Python,熟练使用Pandas、PyTorch等数据处理和深度学习框架,必须具备构建或优化训练数据Dataloader的实际经验。
3、深入理解多模态数据的特性及处理技术,具备丰富的数据建模和数据架构经验,能够设计统一、高效的数据处理抽象。
4、有使用Spark、Ray等分布式框架进行大规模数据处理的实战经验,理解其核心原理。
5、具备优秀的业务理解能力和跨团队(数据、算法、Infra)沟通协作精神,责任心强,有严谨的问题排查与优化
投递简历
免责声明:
此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!