职位描述
一、岗位职责
- 系统与服务保障:负责公司服务器、网络、存储、云计算平台及核心业务系统的 7x24小时稳定性、安全性与性能监控,快速响应并处理告警与故障,保障SLA。
- 日常运维操作:执行系统部署、变更、发布、扩容、迁移、备份与恢复等日常运维任务,编写并维护标准操作文档。
- 熟悉相关ISO 标准化流程。
- 监控与容量规划:建设和维护监控告警体系(如Zabbix、Prometheus、Grafana),分析系统性能指标,进行容量评估与规划,预防潜在风险
- 安全与合规:执行系统安全加固、漏洞修复、权限管理和访问控制,协助应对安全事件,满足内外部合规性要求。
- 灾备与高可用:设计和参与实施系统容灾、备份恢复及高可用方案,定期组织演练。
- 技术支持与协作:为开发、测试及其他部门提供运维层面的技术支持,参与架构设计评审,从运维角度提出可运维性、可观测性建议。
二、 任职要求(硬技能)
必备要求:
- 经验与学历:计算机相关专业本科及以上学历,3年以上 中大型系统运维或SRE相关工作经验。
- 操作系统:精通Windows及Server管理,熟悉 Linux 操作系统(如CentOS/RHEL/Ubuntu)的配置、管理、调优及故障排查。
- 网络基础:扎实的TCP/IP网络知识,熟悉VLAN、路由、防火墙、负载均衡等常见网络设备的配置与原理,能使用工具进行网络问题诊断。熟悉Cisco/ Aruba/Palo Alto/等网络设备
- 监控工具:有使用主流监控告警工具(如Zabbix、Prometheus、Nagios等)的实际经验。
- 云平台:具备至少一家主流公有云(AWS / 阿里云 / 腾讯云 / Azure)的服务使用和管理经验。
三、 任职要求(软技能与素质)
- 责任心与抗压能力:对生产环境怀有敬畏之心,责任心极强,能在高压下冷静、快速地处理紧急故障。
- 问题解决能力:具备优秀的逻辑分析能力和系统性排查问题的思路,刨根问底,追求根本解。
- 沟通与协作:良好的团队协作精神。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕