职位详情
存储与数据运维工程师
2.2-2.5万
嘉合通盈(北京)科技产业发展有限公司
北京
1-3年
本科
04-29
工作地址

金唐西联大厦

职位描述

我们正在招募一名资深存储与数据运维专家,负责设计、运维和优化智算中心的高性能存储架构(GPFS、Lustre)及混合存储体系(GlusterFS、对象存储等)。您将确保存储系统高效支撑AI训练、大规模数据分析等核心业务,同时推动存储性能调优、智能化运维及跨技术栈协同,保障数据服务的稳定性、高吞吐与低延迟。


​​主要职责:​​



  • ​​高性能存储管理​​:


    • 部署、维护及调优GPFS、Lustre等高性能并行文件系统,解决AI分布式训练中的高并发I/O性能瓶颈。

    • 设计混合存储架构(块/文件/对象存储),管理GlusterFS分布式存储、对象存储(如Ceph S3)的容量规划与数据分层策略。


  • ​​存储自动化与监控​​:


    • 开发自动化工具管理存储集群生命周期(扩容、故障自愈、负载均衡),利用Prometheus/Grafana构建实时监控体系,实现性能预警与根因分析。

    • 结合AI工具分析存储日志,预测硬件故障或性能波动,优化存储资源调度策略。


  • ​​跨领域协同​​:


    • 与AI算法团队协作,优化训练数据集在GPFS/Lustre上的存储布局,提升大规模模型训练效率。


  • ​​容灾与安全​​:


    • 制定GPFS/Lustre跨集群容灾方案,设计对象存储数据冗余策略,保障PB级数据安全性与业务连续性。

    • 参与7×24值班轮换,快速响应存储相关紧急故障。



​​任职资格:​​



  • ​​必备条件​​:


    • 计算机科学、存储工程或相关领域本科及以上学历,1年以上高性能存储系统(GPFS/Lustre)运维经验。

    • 了解GPFS/Lustre架构设计、参数调优及故障排查,熟悉并行文件系统在AI/HPC场景下的性能优化方法。

    • 了解GlusterFS等分布式存储技术,具备对象存储(如AWS S3、MinIO)集成管理经验。

    • 熟练使用Python/Go开发存储自动化脚本,掌握Ansible/Terraform等IaC工具。

    • 熟悉存储硬件生态(如全闪存阵列、NVMe-oF协议)及网络优化(InfiniBand/RoCE)。


  • ​​优先条件​​:


    • 具有IBM Spectrum Scale(GPFS)或Lustre官方认证,或超算中心存储运维背景。

    • 熟悉AI训练数据流水线(如TensorFlow/PyTorch数据集加载优化)或向量数据库存储方案。

    • 具备存储性能分析工具经验(如GPFS Monitoring、Lustre Monitoring Tool)。

    • 了解存储与计算分离架构,或有GPU加速存储读取实践经验。



​​我们提供:​​



  • 参与千亿参数大模型训练、多模态AI研发等前沿场景的存储系统建设。

  • 直面EB级数据规模和百GB/s级吞吐挑战的技术成长环境。


如果您对此职位感兴趣,请提交您的简历和求职信进行申请。我们期待您的回音!


以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请