我们正在招募一名资深存储与数据运维专家,负责设计、运维和优化智算中心的高性能存储架构(GPFS、Lustre)及混合存储体系(GlusterFS、对象存储等)。您将确保存储系统高效支撑AI训练、大规模数据分析等核心业务,同时推动存储性能调优、智能化运维及跨技术栈协同,保障数据服务的稳定性、高吞吐与低延迟。
主要职责:
- 高性能存储管理:
- 部署、维护及调优GPFS、Lustre等高性能并行文件系统,解决AI分布式训练中的高并发I/O性能瓶颈。
- 设计混合存储架构(块/文件/对象存储),管理GlusterFS分布式存储、对象存储(如Ceph S3)的容量规划与数据分层策略。
- 存储自动化与监控:
- 开发自动化工具管理存储集群生命周期(扩容、故障自愈、负载均衡),利用Prometheus/Grafana构建实时监控体系,实现性能预警与根因分析。
- 结合AI工具分析存储日志,预测硬件故障或性能波动,优化存储资源调度策略。
- 跨领域协同:
- 与AI算法团队协作,优化训练数据集在GPFS/Lustre上的存储布局,提升大规模模型训练效率。
- 容灾与安全:
- 制定GPFS/Lustre跨集群容灾方案,设计对象存储数据冗余策略,保障PB级数据安全性与业务连续性。
- 参与7×24值班轮换,快速响应存储相关紧急故障。
任职资格:
- 必备条件:
- 计算机科学、存储工程或相关领域本科及以上学历,1年以上高性能存储系统(GPFS/Lustre)运维经验。
- 了解GPFS/Lustre架构设计、参数调优及故障排查,熟悉并行文件系统在AI/HPC场景下的性能优化方法。
- 了解GlusterFS等分布式存储技术,具备对象存储(如AWS S3、MinIO)集成管理经验。
- 熟练使用Python/Go开发存储自动化脚本,掌握Ansible/Terraform等IaC工具。
- 熟悉存储硬件生态(如全闪存阵列、NVMe-oF协议)及网络优化(InfiniBand/RoCE)。
- 优先条件:
- 具有IBM Spectrum Scale(GPFS)或Lustre官方认证,或超算中心存储运维背景。
- 熟悉AI训练数据流水线(如TensorFlow/PyTorch数据集加载优化)或向量数据库存储方案。
- 具备存储性能分析工具经验(如GPFS Monitoring、Lustre Monitoring Tool)。
- 了解存储与计算分离架构,或有GPU加速存储读取实践经验。
我们提供:
- 参与千亿参数大模型训练、多模态AI研发等前沿场景的存储系统建设。
- 直面EB级数据规模和百GB/s级吞吐挑战的技术成长环境。
如果您对此职位感兴趣,请提交您的简历和求职信进行申请。我们期待您的回音!