职位描述
【岗位职责】
1.负责企业级云原生监控告警系统的建设与运维,基于Prometheus生态构建高可用的指标采集、存储、告警体系,提升业务系统可观测性。
2.负责分布式日志平台的运维与开发,在Kubernetes环境下优化基于Elasticsearch、Kafka的日志采集、传输、存储及检索链路,保障系统稳定高效运行。
3.参与PaaS平台AIOps能力建设,使用Golang开发运维工具,协助智能异常检测、根因分析等功能落地,提升运维自动化水平。
4.负责监控日志系统的故障排查、性能调优与应急响应,建立完善的巡检与容量管理机制,保障服务SLA。
【任职要求】
1.计算机相关专业本科及以上学历,2年以上开发或SRE相关工作经验。
2.熟悉Golang/Python等至少一种开发语言,具备基础系统运维能力,了解Linux、网络协议及容器化技术。
3.了解Kubernetes基本概念与操作,熟悉Prometheus、Elasticsearch、Kafka中至少一项,掌握其日常运维操作。
4.具备良好的问题分析能力、沟通协作意识与文档编写习惯,能配合团队完成项目落地。
5.有监控告警或日志平台等可观测性相关开发运维经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕