岗位职责:
1、负责云平台基础设施的日常监控维护与优化,保障系统的高可用性安全性与稳定运行;
2、设计并实施云资源部署方案,管理计算存储网络等核心组件;
3、实时监控平台性能与状态,快速响应故障并执行恢复措施;
4、优化资源配置与成本结构,提升资源利用率与可靠性;
5、强化安全防护体系,落实访问控制漏洞修复及数据备份策略;
6、推动自动化运维工具链建设,提升运维效率;
7、协同开发团队支持业务需求,确保云服务持续满足业务目标。
岗位要求:
1、精通主流云平台及私有云部署,掌握IaaS/PaaS组件管理、SDN网络虚拟化及分布式存储技术 ;熟练使用容器编排工具及自动化运维工具;
2、具备全栈监控能力(从物理层到应用层),熟练配置告警策略并运用AIOps技术实现故障预测与自愈;掌握CI/CD流水线设计;
3、脚本开发:熟练使用Shell/Python编写运维脚本,支撑自动化部署、资源调度及备份恢复;
4、快速定位并解决高并发场景下的性能瓶颈,保障系统高可用性;精通安全防护体系设计,落实访问控制、漏洞修复及灾备方案;具备成本优化意识,通过资源调度策略提升利用率并控制ROI;
5、运维实践:5年以上云平台运维经验,主导过大型上云迁移或混合云管理项目;熟悉多云环境统一管控(如华为云ManageOne),输出运维规范及应急预案。