职位描述
岗位职责:
1. 系统运维与保障
· 负责7×24小时响应和处理线上告警,快速定位并解决云平台及业务系统故障,并输出详细的故障分析报告(RCA)。
· 负责云平台(包括K8s集群、中间件、数据库、存储、网络等组件)的日常监控、性能优化与容量规划,确保服务高可用性和SLA达标。
2. 安全与合规
· 实施云资源安全基线检查,定期进行漏洞扫描、日志审计与安全加固。
· 处理日常安全事件,熟悉防火墙、WAF、抗DDOS等安全产品的配置与策略维护。
3. 自动化与效率提升
· 开发和维护自动化运维脚本与工具(使用Shell/Python/Go等语言),实现运维任务自动化,提升工作效率。
· 负责CI/CD流水线(如Jenkins、GitLab CI等)的搭建与维护,保障基于Git、Maven、Docker和Kubernetes的持续集成与部署流程稳定高效。
4. 变更与容灾管理
· 执行系统版本发布、配置变更及灾备演练,完善并验证系统容灾与故障恢复机制,确保业务连续性。
5. 成本控制与优化
· 分析云资源使用情况,通过资源规格选型、采购计划优化、闲置资源回收等方式进行成本优化,制定并管理资源配额,控制预算。
6. 文档与知识管理
· 编写并维护详尽的技术文档(如运维手册、应急预案),积极进行知识沉淀与内部培训分享。
7. 完成领导交办的临时工作。
任职要求:
1. 学历与专业
· 计算机科学、软件工程、网络工程或相关专业,本科及以上学历。
2. 工作经验
· 拥有2年以上云计算或云平台运维相关工作经验,具备大规模集群(如千台节点以上)运维经验者优先。
· 有云迁移、高可用架构设计、大型运维项目或成本优化项目经验者将更具优势。
3. 技术能力 - 云平台与Kubernetes
· 深入理解主流云平台(如阿里云、腾讯云、华为云或私有云方案)的产品体系与服务,包括计算、存储、数据库、网络及负载均衡等。
· 精通Kubernetes架构、核心概念与组件原理,具备丰富的K8s集群管理、故障排查和性能调优经验。
· 熟练掌握Docker容器技术及其底层原理,了解Service Mesh等微服务治理框架者优先。
4. 技术能力 - 监控与自动化
· 熟练使用Prometheus、Zabbix、Grafana等监控告警工具,能够构建完善的监控体系。
· 具备扎实的自动化运维开发能力,熟练使用至少一种脚本语言(如Shell/Python)进行运维工具和脚本开发。
5. 软技能
· 具备强烈的责任心和良好的团队协作精神,拥有出色的逻辑分析能力与问题解决能力。
· 能够承受一定的工作压力,对技术有热情,有良好的学习能力和主动性。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕