职位描述
岗位职责:
负责云运维监控、devops落地、云原生部署维护及运维平台二次开发;
负责各公有云上应用系统运行软件的安装、配置、优化与维护、故障处理、数据备份、日志分析等;
负责办公桌面运维工作,负责日常window和macbook的配置,各分支机构网关、防火墙、vpn设备的管理;
各类故障及事务的应急响应、处理,协调,保证平台正常运行;
任职要求:
精通阿里云云效(或者:腾讯TAPD、PingCode等)产品,熟悉研发全生命周期的项目管理、熟悉敏捷开发全流程配置管理、支持混合云环境的devops和多分支测试环境落地、以及其它诸如:工单、缺陷跟踪、工时管理、项目管理、效能分析和报告等需求;
能独立搭建和维护监控系统(Prometheus、cloudwatch、alertmanager、prometheusalert和watchalert等),结合可视化工具(Grafana)实时分析系统指标。熟悉prometheus的rules、grafana的rules、dashboard编辑,能根据应用需要建立监控、告警和可视化统一平台
了解opentelmetry,metrics、log和trace,集成智能可观测性平台,实现多源数据关联分析与自动化故障处理。
熟练掌握aws cloudwatch、阿里云云监控的配置和管理,并能够融合自建和云监控混合管理。
熟悉linux,熟练配置Nginx、Redis、kafka、mongodb等应用相关软件的部署、配置与优化维护;
熟悉amazon和aliyun等公有云产品,包括不限于vpc\ec2\rds\eks\mfk\analyticdb\dataworks\maxcompute\glue等产品
熟悉网络基础知识、熟悉TCP/IP的工作原理,快速分析网络信息,熟悉主流交换机和路由器的维护
熟悉shell/python/go中的一种,具备项目开发经验更优
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕