岗位要求:
1.负责搭建和维护基于VictoriaMetrics/Prometheus的监控系统,实现指标采集、存储和可视化;
2.开发Loki日志收集与分析管道,优化日志查询性能;
3.设计Grafana监控看板,制定业务/系统级监控指标标准;
4.维护node-exporter等数据采集组件,适配k8s/k3s容器化环境;
5.研究NPU等异构计算资源的监控方案,开发定制化Exporter;
6.构建多级告警体系,实现智能阈值判定与告警降噪。
任职要求:
1. 本科及以上学历,计算机相关专业,3年以上相关工作经验;
2.3年以上监控系统开发经验,精通PromQL/VictoriaMetrics查询语言;
3.熟练掌握Loki日志栈和Grafana可视化配置,有Dashboard模板开发经验;
4.熟悉k8s/k3s监控体系,了解ServiceMonitor/PodMonitor等CRD配置;
5.具备Go/Python开发能力,能编写定制化Exporter和告警插件;
6.有NPU/GPU等硬件监控经验者优先,熟悉DCGM工具链更佳;
7.熟悉OpenTelemetry等可观测性标准者加分;
8. 有较强的学习能力,能够快速学习工作相关的新技术,并运用于相关项目中;
9. 工作态度认真负责,敢于接受挑战。