腾讯(tencent)招聘大模型存储研发工程师
招聘职位:
大模型存储研发工程师 搜索同类职位
岗位职责:
1.负责大模型专用存储系统的设计研发,围绕大模型训练/推理场景构建一体化分层存储架构,无缝对接大模型训推框架:;
2.架构设计与场景适配:通过系统性逻辑分析拆解大模型存储瓶颈,结合训推场景的数据流特征,设计分层存储架构,解决数据流转效率与一致性问题;
3.推理性能极致优化:面向推理场景,通过全链路IO瓶颈的逻辑分析,结合CXL、RDMA、GPU Direct等高速互联技术,设计极致IO路径,实现数据高效传输,持续优化TTFT、TBT、并行吞吐等核心性能指标,解决推理延迟与并发瓶颈;
4.训练场景稳定性保障:面向训练场景,通过对万卡接入、爆发式流量的模式分析与逻辑建模,设计高可靠、高吞吐的存储服务方案,解决长周期训练中的数据稳定性与性能波动问题。
岗位要求:
1.具备扎实的计算机技术基础,精通数据结构和算法,熟练掌握Linux环境下的C/C++/Go/Python等至少一门编程语言;
2.掌握分布式系统原理(一致性、可靠性、扩展性等),主导或深度参与过至少一款大型分布式系统研发;
3.富有创造力、学习能力和自驱力,具备极强的逻辑分析与问题拆解能力,能对业务场景进行深度分析和抽象,创造性解决存储性能、可靠性等关键问题;
4.具备良好的沟通能力、协调能力,能闭环解决问题,与合作方共赢。
加分项:
1.熟悉主流机器学习框架/推理引擎(例如vLLM/SGLang/PyTorch);
2.有大模型训练推理性能优化经验,比如:KVCache优化;
3.熟悉CXL、GPU Direct、RDMA等高性能数据传输技术;
4.有高性能计算/网络/数据库/云原生背景。
1.负责大模型专用存储系统的设计研发,围绕大模型训练/推理场景构建一体化分层存储架构,无缝对接大模型训推框架:;
2.架构设计与场景适配:通过系统性逻辑分析拆解大模型存储瓶颈,结合训推场景的数据流特征,设计分层存储架构,解决数据流转效率与一致性问题;
3.推理性能极致优化:面向推理场景,通过全链路IO瓶颈的逻辑分析,结合CXL、RDMA、GPU Direct等高速互联技术,设计极致IO路径,实现数据高效传输,持续优化TTFT、TBT、并行吞吐等核心性能指标,解决推理延迟与并发瓶颈;
4.训练场景稳定性保障:面向训练场景,通过对万卡接入、爆发式流量的模式分析与逻辑建模,设计高可靠、高吞吐的存储服务方案,解决长周期训练中的数据稳定性与性能波动问题。
岗位要求:
1.具备扎实的计算机技术基础,精通数据结构和算法,熟练掌握Linux环境下的C/C++/Go/Python等至少一门编程语言;
2.掌握分布式系统原理(一致性、可靠性、扩展性等),主导或深度参与过至少一款大型分布式系统研发;
3.富有创造力、学习能力和自驱力,具备极强的逻辑分析与问题拆解能力,能对业务场景进行深度分析和抽象,创造性解决存储性能、可靠性等关键问题;
4.具备良好的沟通能力、协调能力,能闭环解决问题,与合作方共赢。
加分项:
1.熟悉主流机器学习框架/推理引擎(例如vLLM/SGLang/PyTorch);
2.有大模型训练推理性能优化经验,比如:KVCache优化;
3.熟悉CXL、GPU Direct、RDMA等高性能数据传输技术;
4.有高性能计算/网络/数据库/云原生背景。
免责声明:
此信息由腾讯官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“腾讯官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!