小红书招聘大模型数据工程
招聘职位:
大模型数据工程 搜索同类职位
岗位职责:
负责 万亿级语料数据 处理体系的设计与优化,涵盖 数据采集、清洗、存储、转换、索引 及分析等全流程建设。
设计并优化 超大规模数据管道(ETL),提升网页数据的抽取、转换、加载(ETL) 效率,确保数据高效流转和存储。
负责 超大规模分布式数据处理架构 设计,支撑搜索引擎及大模型预训练数据处理需求。
研究并优化数据存储、索引及查询架构,提高 语料数据的组织方式,支持大规模 文本、结构化/非结构化数据 的高效检索。
研发 高效的数据清洗、去重、质量评估 体系,确保大模型训练数据的高质量输入。
与 算法、搜索、模型训练团队 深度合作,提升数据可用性,助力大模型预训练及微调。
关注高性能计算,优化数据处理任务的并发执行、计算资源管理,提升计算效率和存储利用率。
任职要求:
本科及以上学历,计算机科学、软件工程、大数据等相关专业,5 年以上大规模数据处理经验。
精通大数据技术栈,包括但不限于:
计算框架:Hadoop、Spark、Flink、Ray 等,具备流批一体化数据处理经验。
存储系统:HBase、ClickHouse、Cassandra、Elasticsearch、Iceberg、Delta Lake 等,能够根据业务需求选择最优存储方案。
分布式消息队列:Kafka、Pulsar 等,优化大规模数据流传输。
ETL 及数据管道:精通 Airflow、KubeFlow 等数据编排工具,能够高效构建数据流转任务。
熟练掌握至少一种编程语言(Python、Java、Scala),具备良好的代码优化及系统调优能力。
深入理解大数据架构设计,具备超大规模数据管道的架构设计与落地经验。
具备高并发、高吞吐的数据处理经验,熟悉分布式系统一致性、任务调度、计算优化等技术。
熟悉 大规模网页数据处理,具备 海量非结构化数据的解析、索引优化 经验。
具备高性能计算和存储优化能力,熟悉数据分片、索引优化、分布式查询加速等技术。
加分项
具备 PB 级别数据处理经验,熟悉 数据湖(Lakehouse)架构 设计,如 Iceberg、Delta Lake 等。
有 大模型语料处理经验,熟悉数据清洗、去重、格式标准化、质量评估等关键环节。
有 搜索引擎、推荐系统、知识图谱 相关数据处理经验者优先
负责 万亿级语料数据 处理体系的设计与优化,涵盖 数据采集、清洗、存储、转换、索引 及分析等全流程建设。
设计并优化 超大规模数据管道(ETL),提升网页数据的抽取、转换、加载(ETL) 效率,确保数据高效流转和存储。
负责 超大规模分布式数据处理架构 设计,支撑搜索引擎及大模型预训练数据处理需求。
研究并优化数据存储、索引及查询架构,提高 语料数据的组织方式,支持大规模 文本、结构化/非结构化数据 的高效检索。
研发 高效的数据清洗、去重、质量评估 体系,确保大模型训练数据的高质量输入。
与 算法、搜索、模型训练团队 深度合作,提升数据可用性,助力大模型预训练及微调。
关注高性能计算,优化数据处理任务的并发执行、计算资源管理,提升计算效率和存储利用率。
任职要求:
本科及以上学历,计算机科学、软件工程、大数据等相关专业,5 年以上大规模数据处理经验。
精通大数据技术栈,包括但不限于:
计算框架:Hadoop、Spark、Flink、Ray 等,具备流批一体化数据处理经验。
存储系统:HBase、ClickHouse、Cassandra、Elasticsearch、Iceberg、Delta Lake 等,能够根据业务需求选择最优存储方案。
分布式消息队列:Kafka、Pulsar 等,优化大规模数据流传输。
ETL 及数据管道:精通 Airflow、KubeFlow 等数据编排工具,能够高效构建数据流转任务。
熟练掌握至少一种编程语言(Python、Java、Scala),具备良好的代码优化及系统调优能力。
深入理解大数据架构设计,具备超大规模数据管道的架构设计与落地经验。
具备高并发、高吞吐的数据处理经验,熟悉分布式系统一致性、任务调度、计算优化等技术。
熟悉 大规模网页数据处理,具备 海量非结构化数据的解析、索引优化 经验。
具备高性能计算和存储优化能力,熟悉数据分片、索引优化、分布式查询加速等技术。
加分项
具备 PB 级别数据处理经验,熟悉 数据湖(Lakehouse)架构 设计,如 Iceberg、Delta Lake 等。
有 大模型语料处理经验,熟悉数据清洗、去重、格式标准化、质量评估等关键环节。
有 搜索引擎、推荐系统、知识图谱 相关数据处理经验者优先
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!