岗位职责
1.参与企业级监控平台的研发,统一收集和分析系统指标、日志与调用链路数据;
2.开发高性能的数据采集、传输、存储与查询模块,支撑大规模服务的实时可观测性;
3.实现智能告警、故障定位辅助、容量预测等能力,帮助团队快速发现和解决问题;
4.推动全公司系统接入统一监控标准,减少重复建设;
5.优化平台资源消耗与查询效率,在成本与体验之间取得平衡。
能力要求
1.学历:本科及以上,计算机科学与技术、软件工程、信息工程等计算机科学与技术、软件工程、信息工程等计算机相关专业优先;
2.工作年限:3年以上监控研发相关工作经验,1年以上可观测性工具开发经验;
3.技术要求:熟悉 Java 或 Go 编程语言,有 Prometheus、Grafana、ELK、Loki、SkyWalking 等系统开发或深度定制经验;熟悉时序数据库(Prometheus TSDB、InfluxDB、ClickHouse)或日志存储(Elasticsearch)的原理与调优;能设计高吞吐、低延迟的数据管道(采集、传输、存储、查询),处理百万级指标或 TB 级日志;理解分布式系统常见故障模式,能将运维痛点转化为有效监控能力;熟悉 OpenTelemetry 标准,具备埋点规范设计与落地能力;掌握监控告警策略设计、降噪算法与根因分析辅助技术。
4.具备良好的团队协作能力、沟通能力与问题解决能力,认同公司技术理念与发展方向。
薪资可面议