职位描述
岗位一:
岗位职责:
1. 搭建、部署、优化各类监控工具和平台,包括服务器、网络、应用性能、日志监控等系统。
2. 负责Zabbix和夜莺监控系统的部署、配置、优化及日常维护,确保监控系统高可用。
3. 实时监控业务系统运行状态,包括服务器性能指标、应用程序响应时间等关键指标,及时发现异常情况并准确判断和快速响应。
4. 制定完善监控告警策略,合理设置阈值和通知规则,确保故障时及时准确通知,减少误报漏报。
5. 深入分析监控数据,挖掘系统性能瓶颈和风险隐患,为系统优化等提供数据支持,协助定位解决问题。
6. 参与制定监控运维流程规范,推动工作标准化、自动化、智能化,提升团队工作效率和质量。
任职要求:
1. 教育背景:本科及以上学历,计算机科学与技术等相关专业优先。
2. 工作经验:5年及以上监控运维领域经验,曾在大型互联网企业等行业企业的运维监控中心担任核心角色优先。
3. 专业技能:
- 熟练掌握主流的监控工具和技术,如Zabbix、Prometheus、Grafana、Nagios、ELK Stack、博睿可观测等,能够独立进行监控系统的安装、配置、调优和故障排查,并具备丰富的二次开发经验,以满足个性化监控需求。
- 有大规模分布式系统监控经验(服务器数量≥1000台)。
- 熟练掌握Zabbix架构、原理及核心功能(自动发现、触发器、模板、聚合监控等),熟悉夜莺的数据采集、告警规则、仪表盘配置,并能与Zabbix整合使用。
- 熟练掌握zabbix平台的使用,具备API编写能力,并与第三方平台进行对接。
- 熟悉云平台(如微软云、AWS、华为云等)的监控服务和架构体系,有云原生环境下监控运维经验者优先,包括容器监控(Docker、Kubernetes等)以及微服务架构下的监控方案设计与实施经验。
- 深入理解计算机网络原理和操作系统知识,熟悉网络协议,能运用抓包工具分析诊断。
- 至少熟练掌握Python、Go
岗位二:
岗位职责:
1. 根据公司业务战略和需求,规划与设计监控运维体系,制定策略,保障监控系统高效、稳定、前瞻,准确反映业务系统运行状态。
2. 搭建、部署、优化各类监控工具和平台,如服务器、网络、应用性能、日志监控等系统,深入研究和应用先进的监控技术,不断提升监控系统的功能和性能。
3. 实时监控业务系统运行状态,包括服务器性能指标、应用程序响应时间等关键指标,及时发现异常情况并准确判断和快速响应。
4. 制定完善监控告警策略,合理设置阈值和通知规则,确保故障时及时准确通知,减少误报漏报。
5. 深入分析监控数据,挖掘系统性能瓶颈和风险隐患,为系统优化等提供数据支持,协助定位解决问题。
6. 参与制定监控运维流程规范,推动工作标准化、自动化、智能化,提升团队工作效率和质量。
7. 负责监控运维团队日常管理和培训,指导培养初级中级工程师,与其他部门良好协作。
任职要求:
1. 本科及以上学历,计算机科学与技术等相关专业优先。
2. 工作经验:8年以上监控运维领域经验,曾在大型互联网企业等行业企业的运维监控中心或OCC指挥中心担任核心角色优先。
3. 专业技能:熟练掌握Zabbix、Prometheus、Grafana、Nagios、ELK Stack等监控工具和技术,能够独立进行监控系统的安装、配置、调优和故障排查,并具备丰富的二次开发经验。
4. 熟悉云平台(如微软云、AWS、华为云等)的监控服务和架构体系,有云原生环境下监控运维经验者优先。
5. 深入理解计算机网络原理和操作系统知识,熟悉网络协议,能运用抓包工具分析诊断。
6. 至少熟练掌握Python、Go、Java等编程语言,能够解决监控运维实际问题。
7. 掌握数据库相关知识,熟悉主流数据库性能监控指标和优化方法。
8. 能力素质:具备出色的问题分析解决能力,能够快速定位故障根源,运用逻辑思维等解决难题,应急处理恢复冷静迅速。
9. 具备团队协作和沟通能力,能够跨部门沟通协作,通俗
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕