职位描述
岗位职责:
使用 Prometheus、Grafana 等开源组件构建和维护监控系统;
设计和开发系统指标的采集机制(Exporter、PushGateway、自定义采集脚本);
告警系统开发与优化, 配置 Prometheus Alertmanager 告警规则;
开发告警事件合并、去重逻辑,提升告警信噪比;
支持多渠道告警通知(如 Email、Slack、Webhook、钉钉等)。
事件处理流程自动化(Workflow)
与运维团队紧密协作,了解其日常处理流程与常见需求;
开发告警触发的自动化处理流程(如自动创建工单、调用脚本、API 修复等);
整合工单系统、通知平台等,实现完整的告警响应闭环。
根据业务或运维团队需求,设计并实现 Grafana 仪表盘;
对接各类监控数据源,展示服务运行状态和系统健康状况。
任职要求:
本科及以上学历,计算机、软件工程、网络工程等相关专业;
熟悉 Linux 系统基本操作与服务运行原理;
熟悉 Prometheus、Grafana 的配置与使用;
掌握 Python,能独立开发 Exporter 或事件处理程序;
了解常见监控组件(Alertmanager、Loki等);
良好的沟通能力,能与运维、平台团队协同工作,理解需求并快速迭代。
有Webhook 等异步事件处理机制经验;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕