岗位职责:
构建统一可观测性平台,整合指标、日志、链路追踪核心数据;设计高可用高性能的采集存储查询架构,建立精准告警机制提升故障处理效率;落地 OpenTelemetry 埋点规范实现全栈覆盖,提供可视化看板与自助分析能力,支撑系统优化与容量规划。
岗位要求:
1. 学历:本科及以上,计算机科学与技术、软件工程、网络工程、物联网工程、数学与应用数学、信息与计算科学、电子信息工程、电子科学与技术、通信工程、等理工科相关专业
2. 工作年限:5年及以上相关工作经验;
3. 技术要求:深入掌握 Prometheus + Grafana、ELK(Elasticsearch、Logstash、Kibana)、Loki + Tempo、SkyWalking 等主流可观测性技术栈;有大规模时序数据(Prometheus TSDB、InfluxDB)或日志存储(Elasticsearch、MinIO)处理经验,熟悉存储优化、采样策略与成本控制;理解分布式系统故障模式,能设计有效的根因分析(RCA)辅助机制;精通 OpenTelemetry 标准,能推动全栈埋点规范落地;具备平台产品思维,能平衡灵活性、性能与易用性,设计用户友好的可视化看板与分析工具。
4. 具备良好的团队协作能力、沟通能力与问题解决能力,认同公司技术理念与发展方向,具有团队管理经验者优先。