职位描述
岗位职责:
1、负责云环境搭建与管理,基于 K8s 部署 Spring Cloud 微服务、 IM / RTC 服务、小程序容器运行环境。
2、构建高可用运维体系:设计 CI/CD 流水线(Jenkins/GitLab CI)、灰度发布方案、监控告警(Prometheus/Grafana)、日志分析(ELK),保障 IM 消息、音视频通话稳定性。
3、主导高并发容量规划:压测,设计弹性伸缩策略,应对百万级 DAU 流量波动。
4、落地海外合规运维:数据本地化存储、GDPR 合规审计、安全防护(防火墙 / 渗透测试),解决跨区域网络延迟问题。
5、管理云基础设施(K8s、VPC、SLB、Redis、MQ、数据库、CDN 等),优化稳定性及成本。
6、负责故障排查、事故复盘、SLO/SLA 制定和持续优化,带领运维 / SRE 团队推进自动化、平台化。
任职要求:
1、6 年以上运维 / SRE 经验,精通海外云平台、Kubernetes、Docker 容器化技术。
2、深入理解分布式系统运维,熟悉 Spring Cloud 微服务、Redis、MQ、数据库(MySQL/NoSQL)、CDN 等组件的监控与优化。
3、有百万级 DAU 高并发系统运维经验,主导过社交 App 或音视频平台的稳定性建设,能快速排查海外网络、服务故障。
4、熟练掌握自动化脚本(Shell/Python)、基础设施即代码(Terraform/Ansible),熟悉 SLO/SLA 制定与故障复盘流程。
6、熟练掌握监控与可观测性工具(Prometheus、Grafana、ELK/EFK、SkyWalking/Jaeger 等)。
7、具备团队管理能力与跨团队沟通能力,了解海外合规要求(GDPR)。
加分项:
1、英语良好。
2、有IM / RTC服务运维经验。
3、熟悉 Chaos Engineering、SRE 体系(Error Budget)。
4、持有阿里云相关认证(如 ACP)。
5、有多区域部署与合规运维经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕