小红书招聘搜广推-ps方向训练框架研发工程师
招聘职位:
搜广推-ps方向训练框架研发工程师 搜索同类职位
岗位职责:
1、参与大规模分布式训练框架(基于PyTorch等)的研发与优化,重点解决千卡乃至万卡级别集群的扩展性、容错与性能瓶颈问题;
2、负责训练系统中关键组件的设计与开发,包括但不限于大规模分布式参数服务器、高性能嵌入向量(Embedding)训练与推理、高效的优化器实现等;
3、深入系统底层,利用高性能网络(如RoCE v2, InfiniBand)、RDMA技术以及NVMe SSD存储,优化数据读取、通信和Checkpoint存储等关键路径,实现极致的端到端训练性能;
4、与算法团队紧密合作,理解前沿模型(如大语言模型、推荐系统、多模态模型)对训练基础设施的需求,并将其转化为系统级的创新与优化;
5、负责GPU/XPU计算资源的精细调度与性能优化,深入挖掘硬件潜力,降低训练成本。
任职要求:
1、优秀的代码能力、数据结构和基础算法功底,熟悉C++开发,理解大规模分布式应用系统和平台;
2、熟悉至少一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现;
3、深入理解并拥有大规模参数服务和分布式系统的实践经验,熟悉其架构、一致性协议与性能调优。
4、参与推理/训练参数服务器的迭代优化,优化GPU PS embedding 相关功能,包括不限于参数更新 / 存储 / 索引构建等模块升级与运维,有大规模参数服务、分布式系统经验的优先考虑。
1、参与大规模分布式训练框架(基于PyTorch等)的研发与优化,重点解决千卡乃至万卡级别集群的扩展性、容错与性能瓶颈问题;
2、负责训练系统中关键组件的设计与开发,包括但不限于大规模分布式参数服务器、高性能嵌入向量(Embedding)训练与推理、高效的优化器实现等;
3、深入系统底层,利用高性能网络(如RoCE v2, InfiniBand)、RDMA技术以及NVMe SSD存储,优化数据读取、通信和Checkpoint存储等关键路径,实现极致的端到端训练性能;
4、与算法团队紧密合作,理解前沿模型(如大语言模型、推荐系统、多模态模型)对训练基础设施的需求,并将其转化为系统级的创新与优化;
5、负责GPU/XPU计算资源的精细调度与性能优化,深入挖掘硬件潜力,降低训练成本。
任职要求:
1、优秀的代码能力、数据结构和基础算法功底,熟悉C++开发,理解大规模分布式应用系统和平台;
2、熟悉至少一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现;
3、深入理解并拥有大规模参数服务和分布式系统的实践经验,熟悉其架构、一致性协议与性能调优。
4、参与推理/训练参数服务器的迭代优化,优化GPU PS embedding 相关功能,包括不限于参数更新 / 存储 / 索引构建等模块升级与运维,有大规模参数服务、分布式系统经验的优先考虑。
免责声明:
此信息由小红书官网 (查看来源)审核并发布,我们转载该信息,仅出于传递更多就业招聘资讯、促进大学生及广大求职者就业之目的。该招聘职位信息的真实性、准确性、时效性及合法性均由原始发布方“小红书官网”负责。我们作为信息转载平台,不构成求职建议,不涉及任何职业中介服务,不对其内容承担任何形式的保证责任。请用户在使用转载信息时保持审慎,自行判断并承担相应风险,求职请认准企业官方渠道!