职位描述
岗位职责:
1. 设计、构建并维护高可用的生产环境,确保服务的可靠性、稳定性与性能;
2. 通过自动化工具与脚本(如Terraform、Ansible等)实现基础设施即代码(IaC);
3. 持续改进系统监控、日志与告警体系(Prometheus/ELK/Loki/Zabbix等);
4. 参与系统容量规划、性能优化与灾备方案设计;
5. 分析与响应生产环境的异常和故障,推动根因分析与持续改进;
6. 推动服务水平协议(SLA)体系建设,提升整体服务可靠性指标;
7. 与开发团队协作,推进可观测性体系与安全策略的落地实施;
8. 探索并应用AI大模型技术,构建AI运维(AIOps)能力,实现智能告警、自动化故障分析与预测性运维。
任职要求:
1. 本科及以上学历;
2. 3年及以上系统运维相关经验;
3. 熟悉Linux系统及网络基础,掌握至少一种编程语言(如Python/Go/Rust/Node.js),能够独立开发和维护高可用运维系统;
4. 熟练使用主流云平台(如AWS/Azure/OCI/阿里云/华为云等),具备大规模Kubernetes集群运维经验;
5. 具备运维服务的日常维护、性能优化与故障排查经验,涵盖负载均衡、容器、中间件等领域;
6. 拥有丰富的故障处理、监控建设、应急预案、容量规划、资源治理及微服务治理的实战经验;
7. 深刻理解应用运维技术体系,熟悉并践行服务可靠性工程(SRE)、DevOps与云原生等理念;
8. 了解AI大模型技术,并具备利用AI/LLM技术实现智能运维(AIOps)场景建设的能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕