哔哩哔哩(bilibili|b站)招聘资深大数据架构工程师-平台工程方向
招聘职位:
资深大数据架构工程师-平台工程方向 搜索同类职位
岗位介绍:
部门介绍
我们是bilibili基础架构部-大数据架构组,负责支撑全公司离线/实时数据基础设施的建设与演进。技术栈覆盖 Hadoop / Spark / Flink / Iceberg / ClickHouse / Kafka / ES / HDFS / Trino等主流开源生态,承担 EB级数据规模下的存储、计算、查询、治理全链路,峰值处理数据量级达到亿级别每秒。我们既是开源生态的深度使用者,也是社区贡献者——团队鼓励参与上游、推动改进合入主线。随着 AI 工具链的成熟,我们正在系统性地把 AI 能力融入大数据基础设施的开发、发布、运维、答疑全流程。这个岗位的一个核心使命,就是让大数据基础设施团队成为"AI-native"的工程团队。
职位描述
工作职责:
一、OLAP 引擎方向(ClickHouse / Trino / 查询加速)
1、跟踪 OLAP 引擎社区前沿(ClickHouse / Trino / StarRocks / Doris / Presto / ES),结合 bilibili BI / 实时分析 / Ad-hoc 业务做选型
2、主导 ClickHouse / Trino 在 PB 级数据规模下的稳定性、性能优化,包括但不限于:
(1)向量化执行、列存优化、Codegen
(2)分布式查询计划、Join 算法选择、CBO 改进
(3)物化视图 / 缓存层 / 二级索引
3、推动 OLAP 引擎与湖仓(Iceberg / Paimon)的深度集成,做高效的湖上查询加速
4、解决高并发点查、复杂分析、AI 数据探索等真实查询场景的工程难题
5、与平台工程团队配合,做好 OLAP 引擎的多租户、资源隔离、SLA 保障
二、AI 赋能基础设施研发
1、熟练使用 Claude Code、Cursor、Copilot 等 AI 编程工具,将 AI 深度嵌入日常工作流
2、主导 AI 流程自动化建设,为团队赋能:
(1)开发阶段:基于 AI 的代码生成、Code Review、单测生成、性能 profiling 自动化
(2)发布阶段:AI 辅助的变更影响分析、灰度策略推荐、回滚决策
(3)运维阶段:AI 驱动的告警归并、根因分析、故障自愈
(4)答疑阶段:基于内部知识库的 RAG 答疑机器人、SQL 助手、调优建议生成
3、沉淀 AI 工具链最佳实践,推广到全组并向外辐射
工作要求:
【硬性条件】
●985 / 211 及以上院校全日制本科及以上学历,计算机相关专业
●5 年以上大数据相关工作经验
●至少深度参与过 1 个大型大数据基础设施项目(EB 级存储 / PB 级日处理 / 千节点以上集群 任一)
●Java / Scala / Go / Rust / C++ 中至少两门掌握扎实
●深度参与过 ClickHouse / Trino / Doris / StarRocks / ES 至少一种 OLAP 引擎在生产环境(>= PB)的运维和优化
【能力素质(满足一项或多项)】
●对查询引擎核心机制有源码级理解(向量化执行、查询优化器、列存格式之一)
●有向量化执行引擎(Velox / Gluten / Photon / DuckDB)开发经验
●主导过 OLAP 引擎与湖格式(Iceberg / Paimon)的对接优化
● Apache Trino / Doris / StarRocks Contributor 优先
● 对开源生态高度熟悉,能快速判断"该自研、该用开源、该改开源"的边界
● 具备从 0 到 1 设计大型分布式系统的能力,能独立 owner 某个技术方向
● 良好的工程品味:代码质量、测试覆盖、可观测性、稳定性
● 熟练使用 AI 编程工具完成日常开发,对 LLM 能力边界有清晰认知
● 良好的中英文技术阅读和书面表达能力(社区 issue / PR / 设计文档)
● Apache 顶级项目 Committer / PMC,或活跃的 Contributor(有合入主线的非 trivial PR)
● 主导过将 AI 能力工程化落地到基础设施场景的真实案例(不只是用 ChatGPT 写代码,而是构建了系统)
● 在 GitHub 有持续的开源项目贡献或个人作品
投递简历
部门介绍
我们是bilibili基础架构部-大数据架构组,负责支撑全公司离线/实时数据基础设施的建设与演进。技术栈覆盖 Hadoop / Spark / Flink / Iceberg / ClickHouse / Kafka / ES / HDFS / Trino等主流开源生态,承担 EB级数据规模下的存储、计算、查询、治理全链路,峰值处理数据量级达到亿级别每秒。我们既是开源生态的深度使用者,也是社区贡献者——团队鼓励参与上游、推动改进合入主线。随着 AI 工具链的成熟,我们正在系统性地把 AI 能力融入大数据基础设施的开发、发布、运维、答疑全流程。这个岗位的一个核心使命,就是让大数据基础设施团队成为"AI-native"的工程团队。
职位描述
工作职责:
一、OLAP 引擎方向(ClickHouse / Trino / 查询加速)
1、跟踪 OLAP 引擎社区前沿(ClickHouse / Trino / StarRocks / Doris / Presto / ES),结合 bilibili BI / 实时分析 / Ad-hoc 业务做选型
2、主导 ClickHouse / Trino 在 PB 级数据规模下的稳定性、性能优化,包括但不限于:
(1)向量化执行、列存优化、Codegen
(2)分布式查询计划、Join 算法选择、CBO 改进
(3)物化视图 / 缓存层 / 二级索引
3、推动 OLAP 引擎与湖仓(Iceberg / Paimon)的深度集成,做高效的湖上查询加速
4、解决高并发点查、复杂分析、AI 数据探索等真实查询场景的工程难题
5、与平台工程团队配合,做好 OLAP 引擎的多租户、资源隔离、SLA 保障
二、AI 赋能基础设施研发
1、熟练使用 Claude Code、Cursor、Copilot 等 AI 编程工具,将 AI 深度嵌入日常工作流
2、主导 AI 流程自动化建设,为团队赋能:
(1)开发阶段:基于 AI 的代码生成、Code Review、单测生成、性能 profiling 自动化
(2)发布阶段:AI 辅助的变更影响分析、灰度策略推荐、回滚决策
(3)运维阶段:AI 驱动的告警归并、根因分析、故障自愈
(4)答疑阶段:基于内部知识库的 RAG 答疑机器人、SQL 助手、调优建议生成
3、沉淀 AI 工具链最佳实践,推广到全组并向外辐射
工作要求:
【硬性条件】
●985 / 211 及以上院校全日制本科及以上学历,计算机相关专业
●5 年以上大数据相关工作经验
●至少深度参与过 1 个大型大数据基础设施项目(EB 级存储 / PB 级日处理 / 千节点以上集群 任一)
●Java / Scala / Go / Rust / C++ 中至少两门掌握扎实
●深度参与过 ClickHouse / Trino / Doris / StarRocks / ES 至少一种 OLAP 引擎在生产环境(>= PB)的运维和优化
【能力素质(满足一项或多项)】
●对查询引擎核心机制有源码级理解(向量化执行、查询优化器、列存格式之一)
●有向量化执行引擎(Velox / Gluten / Photon / DuckDB)开发经验
●主导过 OLAP 引擎与湖格式(Iceberg / Paimon)的对接优化
● Apache Trino / Doris / StarRocks Contributor 优先
● 对开源生态高度熟悉,能快速判断"该自研、该用开源、该改开源"的边界
● 具备从 0 到 1 设计大型分布式系统的能力,能独立 owner 某个技术方向
● 良好的工程品味:代码质量、测试覆盖、可观测性、稳定性
● 熟练使用 AI 编程工具完成日常开发,对 LLM 能力边界有清晰认知
● 良好的中英文技术阅读和书面表达能力(社区 issue / PR / 设计文档)
● Apache 顶级项目 Committer / PMC,或活跃的 Contributor(有合入主线的非 trivial PR)
● 主导过将 AI 能力工程化落地到基础设施场景的真实案例(不只是用 ChatGPT 写代码,而是构建了系统)
● 在 GitHub 有持续的开源项目贡献或个人作品
投递简历
免责声明:
此信息由b站官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“b站官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!