职位详情
监控数据集成方案架构师
2.4-2.5万
能科瑞元
天津
10年以上
大专
12-24
工作地址

天津联想创新科技园1

职位描述
职位名称:
工作职责:
-负责联想Infra&App资源使用率优化项目的技术架构工作
-具体内容包括:
-主导资源关键使用率指标采集 - 传输 - 集成 - 存储 - 聚合 - 可视化 全链路架构设计,覆盖物理服务器、虚拟服务器、容器平台(K8s 等)、存储设备、AWS/Azure 公有云、网络设备、GPU 等全场景资源;​
-结合业务需求,制定数据采集标准(指标定义、格式规范、更新频率),设计 Splunk 数据模型(索引、字段提取、关联规则),确保数据一致性和可复用性;​
-使用Splunk对接 AWS CloudWatch、Azure Monitor API,以及网络设备、存储设备的 SNMP/REST API,开发适配性数据采集脚本或集成插件;​
-解决 GPU 资源(NVIDIA 等)特殊指标采集难题,实现算力、显存、温度等关键使用率数据的精准采集。
-持续监控数据链路的稳定性和指标质量,定位并解决采集失败、数据缺失、延迟超标等问题;​
-基于业务增长和技术演进,迭代优化架构设计,支持新增资源类型、指标维度的快速接入;​
-制定架构运维手册、应急预案,保障数据链路 7x24 小时可用。
-沉淀监控架构设计规范、数据采集最佳实践,推动跨团队(运维、开发、云平台)的技术标准落地;​
-与业务团队、运维团队协作,,将业务场景转化为技术方案,提供架构层面的技术支持。
任职要求
-基本要求​
-本科及以上学历,计算机、软件工程等相关专业,8 年以上 IT 架构设计经验,其中 4 年以上监控数据集成或可观测性相关架构经验;​
-具备混合 IT 环境(私有云 + 公有云)的架构设计经验,熟悉 AWS/Azure 云平台的监控生态;​
-核心技术能力​
-数据采集工具:精通 Zabbix(监控项配置、触发器、API 开发)、Prometheus(Exporter 开发、PromQL 查询),熟悉 SNMP、REST API、日志采集方案;​
-容器与云技术:掌握 AWS/Azure 云平台监控服务及 API 集成;​
-数据处理与集成:具备数据格式转换、清洗、关联、验证的自动化实战经验;​
-精通python,可以通过脚本从Zabbix API,Prometheus API及其他自开发API获取目标数据;
-精通架构图与架构文档的设计;
-软技能要求​
-具备较强的架构设计思维,能独立完成复杂场景的技术方案设计和落地;​
-具备良好的问题排查能力,能快速定位数据链路中的瓶颈和故障;​
-沟通协调能力强,能跨团队推动技术方案落地;​
-自驱力强,关注技术前沿,能快速学习并应用新的监控工具和技术;
-良好的英文读写能力,可撰写英文技术文档;
-其他
-有AI开发能力,可以开发AI Agent提供集成方案数据的查询
-熟悉开源监控生态(Grafana、Loki、Alertmanager)与 Splunk 的集成方案;

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请