任职资格:
1.专业背景:计算机科学与技术、网络工程、软件工程、信息安全等相关专业。
2.学历与工作年限:博士2年及以上相关工作经验;硕士:3年及以上相关工作经验;本科5年及以上相关工作经验。
3.政治面貌:不限
4.(执)业资格/专业证书:具有VCAP认证或云计算厂商云架构工程师认证证书、具备网络工程师认证证书、CISP或其它安全厂商工程师认证证书。
5.工作经历:5年以上云运维工作经验,具备独立处理复杂云平台故障的能力,有大型云项目运维经验者优先。
6.专业知识:熟悉主流云计算平台(如阿里云、腾讯云、华为云等)的产品架构、服务组件和使用方法,具备云资源配置和管理能力;掌握网络原理、操作系统(Linux/Windows)、数据库(MySQL、Oracle等)、中间件等相关知识,具备系统部署、监控和维护技能。熟练使用常用的运维工具(如 Prometheus、Grafana、Ansible等)和脚本语言(Python、Shell),能够进行自动化运维操作;了解云安全相关技术和标准,具备安全风险评估和防护能力。
7.技能要求:掌握各类办公软件、分析模型或管理软使用技巧;具备较好沟通能力,表述准确,重点突出,注意倾听;熟悉各类公文基础写作方法与要求,能够在指导下完成公文撰写工作。具备较强的英语读写能力,能够阅读英文技术文档和资料。
8.能力素质:工作认真负责,具备较强的责任心和严谨的工作态度,能够承受较大工作压力,适应7×24小时轮班或应急响应工作模式;良好的沟通能力和团队协作精神,能够与开发团队、业务部门及外部供应商有效沟通,协同解决问题;较强的学习能力和创新意识,能够快速掌握新的云计算技术和运维工具,适应技术发展变化;具有良好团队领导能力,带领团队开拓进取。
岗位职责:
1.云资源管理与配置:负责企业云资源(如计算资源、存储资源、网络资源等)的规划、分配与管理,根据业务需求合理调整资源配置,保障资源高效利用。负责保管云平台超级用户管理员账号及密码。负责云平台的软件版本升级工作,负责云平台集群的扩容或缩减工作。负责与云安全平台、等保、密评、商密技术工作的对接。负责判断云用户业务的增长量,及时做好云平台扩容预案。负责执行云资源的创建、变更和释放操作,确保操作准确无误,维护云资源清单,实时更新资源使用状态。负责与云服务提供商(如阿里云、腾讯云、华为云等)保持沟通,及时了解云产品更新动态,评估新功能对企业业务的适用性,适时引入并配置新资源。
2.云平台监控与维护:负责云平台整体健康检查,负责检查云平台因功能及性能或物理资源占有量问题可能导致的云用户使用出现的问题,并及时向用户运维人员通知和向上级汇报,并及时形成解决方案。负责云平台的故障排除,负责因硬件故障导致云平台故障或不稳定情况,及时通知用户运维人员,并向数据中心运维人员及时通知,协助数据中心运维人员判断硬件故障。负责每日云平台的健康巡检工作,每周、月出具巡检报告。负责执行云平台的日常维护任务,包括系统升级、软件安装与配置、数据备份等,保障系统稳定运行。
3.故障诊断与处理:接到云平台故障告警或用户反馈后,迅速响应,运用专业工具和技术手段进行故障定位与分析,制定解决方案,确保故障及时修复。对于重大故障,及时向上级汇报,协调相关资源(如开发团队、云服务提供商技术支持)共同解决问题,记录故障处理过程和结果,形成故障案例文档,每月至少提交1份故障分析报告。总结故障发生原因和处理经验,提出预防措施和改进建议,避免同类故障再次发生,推动云平台稳定性提升。
4.性能优化与成本控制:负责分析云平台性能数据,识别性能瓶颈,提出优化方案(如调整资源配置、优化网络架构、改进应用程序等),提升云平台运行效率。负责监控云资源使用成本,分析费用构成,制定成本优化策略(如合理选择云服务套餐、优化资源使用时长等),实现云服务成本可控。定期向管理层汇报云平台性能和成本情况,提供数据支持和决策建议。
5.文档管理与知识沉淀:编写和维护云运维相关文档,包括操作手册、应急预案、配置文档等,确保文档内容准确、完整、及时更新。组织内部技术分享和培训活动,将云运维经验和技术知识传递给团队成员,提升团队整体技术水平,每年至少组织4次技术分享活动。
6.其他:做好与公司其他部门的沟通协调和业务衔接工作;完成公司和部门领导交办的其他工作。
下属人数:16人