一、任职资格:
1、本科及以上学历;
2、具备3年及以上主流物理服务器、操作系统维护经验;
3、精通GPU服务器、通算服务器主要部件的基本工作原理,具备GPU复杂故障的独立排查能力,并进行故障复盘和预防;
4、精通Linux操作系统的日常维护、复杂问题排查,具备shell脚本编程;
5、具备服务器及操作系统相关认证证书人员优先,服务器及操作系统相关认证证书包含:RHCA、RHCE、RHCSA、ACP、VCP、VCAP、MCP、CKA、UCP、KYCP、HCIP-openEuler、NCA-AIIO认证等(英伟达认证助理-AI基础设施与运维)。
二、工作内容:
1、负责存储资源的分配、扩容、迁移、备份、恢复等操作,满足业务需求;
2、负责存储系统日志分析、性能监控、容量规划,及时发现并解决潜在问题,同时负责存储系统安全策略的制定和实施,保障数据安全,编写和完善存储系统运维文档,包括操作手册、应急预案等;
3、负责存储系统的日常故障处理、分析和闭环,包括快速定位和解决存储系统出现硬件故障、软件故障、网络故障等,分析故障原因,制定解决方案,并实施故障排除,记录故障处理过程,编写故障报告,并进行总结和复盘;
4、负责监控对象存储和高性能存储系统的性能指标,分析性能瓶颈,提出优化建议,实施存储系统性能优化方案,提升系统性能和资源利用率,跟踪存储新技术发展,评估新技术应用价值,推动存储系统升级改造。