2-3万
保利时代天悦六层
岗位职责:
1、参与系统平台与运维管理平台,后端(Java)核心模块开发,推动自动化与平台化能力建设。
2、全面负责并持续优化高可用、可扩展的云基础设施架构(AWS / AliCloud / HWCloud),保障核心SaaS产品稳定运行。
3、主导 CI/CD、IaC、灰度/蓝绿/A/B 等 DevOps 体系建设,提升交付质量与研发效率。
4、建设和完善全链路监控体系(Prometheus + Thanos + Loki + Grafana),引入智能化告警与自动化修复,缩短 MTTR。
5、设计并落地多云/混合云高可用架构与容灾方案,实现跨Region分钟级故障切换。
6、统筹日常运维与生产保障,包括 7x24 应急响应、版本迭代和故障快速处置。
7、跨团队协作,推动 SRE/DevOps 文化落地,推进 Chaos Engineering、SLO/SLI 等工程化实践。
任职要求:
1、本科及以上学历,计算机相关专业;持有 CKA/CKS 或主流云厂商高级认证者优先。
2、5-10 年大型互联网或头部云厂商 SRE/运维经验,主导过万级并发用户的线上系统管理。
3、精通 Linux 系统与网络运维,能独立解决复杂系统和网络疑难问题。
4、深度掌握 Kubernetes / Docker / Helm / Istio,具备大规模生产集群建设与调优经验。
5、熟练使用 Terraform / Ansible / Pulumi 等 IaC 工具,具备基础设施自动化和落地实践经验。
6、能独立开发和维护运维管理平台。
7、主导过完整的全链路监控与告警体系建设,具备 MTTR < 5 分钟的快速响应能力。
8、有多云或混合云架构设计与演练经验,具备跨Region容灾方案成功落地案例。
9、有推动团队落地 SRE 文化、建设工程效率体系的经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕