任职要求:
1、系统与网络:熟悉Linux系统管理,深入理解TCP/IP等网络协议,能熟练运用常见运维工具,如Shell/Python脚本、Ansible等。
2、 容器与云技术:熟悉容器化技术,如Docker、Kubernetes,了解云原生技术栈,有阿里云产品(如分布式消息队列RocketMQ、分布式调度SchedulerX、全景业务监控Sunfire、全局事务服务GTS等)使用及优化经验。
3、监控与日志:熟悉常用的开源监控/日志分析系统,如Prometheus、Zabbix、ELK。
4、数据库与中间件:掌握主流数据库(如MySQL)和中间件(如Nginx、Redis)的运维知识,熟悉其性能优化和故障排查。
工作经验:
1、要求1 - 3年阿里云运维经验,熟悉国网公司运维流程者优先。
问题处理与分析能力
2、具备较强的问题分析与解决能力,能独立处理突发故障,迅速定位问题根源并提出解决方案。
岗位职责:
负责阿里组件分布式消息队列RocketMQ、分布式调度SchedulerX、全景业务监控Sunfire、全局事务服务GTS的运维及运营工作,具体包含以下内容:
1、集群部署与管理
负责部署、扩容、缩容及升级工作,确保集群的高可用性和可扩展性。
监控集群状态,包括Broker节点健康状态、消息堆积情况、网络延迟等,及时发现并处理潜在问题。
2、性能优化
根据业务需求调整配置参数,如消息存储策略、刷盘机制、同步/异步发送等,以优化性能。
定期进行性能测试和调优,确保组件能够满足业务的高并发、低延迟需求。
3、故障处理
建立完善的故障应急响应机制,快速定位并解决运行中的故障,如宕机、节点失效等。
分析故障根因,制定预防措施,避免类似故障再次发生。
4、安全运维
负责组件的安全配置,如访问控制、数据加密、审计日志等,确保消息传输和存储的安全性。
定期进行安全漏洞扫描和修复,防范潜在的安全风险。并协助业务团队开展检修工作。