1、本科及以上学历;
2、具备4年及以上主流物理服务器、操作系统维护经验;
3、精通GPU服务器、通算服务器主要部件的基本工作原理,具备GPU复杂故障的独立排查能力,并进行故障复盘和预防;
4、精通Linux操作系统的日常维护、复杂问题排查,具备shell脚本编程;
5、具备服务器及操作系统相关认证证书人员优先,服务器及操作系统相关认证证书包含:RHCA、RHCE、RHCSA、ACP、VCP、VCAP、MCP、CKA、UCP、KYCP、HCIP-openEuler、NCA-AIIO认证等(英伟达认证助理-AI基础设施与运维)。工作内容:
1、负责使用监控工具实现GPU服务器、通用算力服务器、操作系统、中间件等软硬件的性能监控、巡检、配置、升级、安全加固等工作,确保稳定运行;
2、负责服务器和操作系统等软硬件日志分析、性能监控、容量规划,及时发现并解决潜在问题,同时编写和完善服务器和操作系统运维文档,包括操作手册、应急预案等;
3、负责GPU算力服务器、通算服务器和操作系统故障处理,快速定位问题和恢复业务;
4、负责监控服务器和操作系统性能指标,分析性能瓶颈,提出优化建议,实施服务器和操作系统性能优化方案,提升系统性能和资源利用率,跟踪服务器和操作系统新技术发展,评估新技术应用价值,推动系统升级改造。