职位描述
1.负责运维组件的资源,变更,故障,风险管理流程和规范的制定与落实,推动运维标准化和自动化,以保证运维的服务质量与交付效率
2.负责设计和周期性组织运维组件故障演练,保证运维组件的可用性,容灾性,以及故障时的快速主动恢复能力
3.负责运维组件的持续稳定性提升和性能优化,包括不限于云原生体系的建设,智能化体系的建设,支撑业务持续发展
4.参与微服务及基础设施的可观测性体系的建设,持续改进,以适应业务架构,基础设施架构的演进
5.参与DevOps流程建设,持续改进和优化运维组件在CI/CD流程中的效率与服务
任职要求:
1.精通Linux/Unix系统管理,网络协议(TCP/IP、HTTP等),虚拟化和容器技术,包括但不限于Docker、Kubernetes
2.精通微服务体系下的网关(如ApiSix/Kong),K8s,消息队列(如Kafka),缓存(如Redis),配置中心(如Nacos)运维管理经验
3.熟悉监控系统(如Prometheus,VictoriaMeitrcis,Vector),日志系统(如ELK,Doris)的运维管理经验,实现多源数据关联分析与自动化故障处理
4.熟悉CI/CD工具(如Jenkins,GitLab,Nexus)的运维管理经验
5.具备良好的项目管理能力,制定计划,把控进度,协调资源,确保项目交付
6.具备良好的沟通能力和团队协作精神,能够快速响应和处理突发事件,有较强的文档编写能力
硬性条件
1、精通Shell/Python/Go等任意编程
2、精通Docker、Kubernetes的稳定性建设,二开经验是加分型
3、熟悉现代化的DevOps平台建设,至少具备 Zadig/KubeSphere/Jianmu/云效/PingCode 任意一种敏捷交付全生命周期的项目管理经验
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕