主要职责:
1.接收并处理用户故障报单,快速定位问题根源(如云平台、网络、虚拟机、数据库/中间件等)。
2.负责云平台及虚拟机的故障深入分析与修复。
3.执行云平台日常健康检查与维护。
4.设计并维护监控报警体系,实现故障及时预警。
5.组织实施灾备与热备演练,保障业务连续性。
6.持续优化云平台,提升虚拟机高可用性与疏散成功率。
7.云平台优化,提高虚机高可用性,疏散成功率
任职要求:
1.8年以上OpenStack部署、运维及故障排查经验,熟悉其计算、存储、网络等核心模块。
2.精通Ceph存储系统的运维管理。
3.精通Linux系统运维及脚本编写。
4.具备网络配置及故障排查能力。
5.了解信创环境下的数据库、中间件及操作系统。
6.具备监控报警系统设计与运维经验,有OpenStack交付及Ceph运维相关项目经历者优先。