岗位职责
负责云环境搭建与管理,基于 K8s 部署 Spring Cloud 微服务、 IM / RTC 服务、小程序容器运行环境。
构建高可用运维体系:设计 CI/CD 流水线(Jenkins/GitLab CI)、灰度发布方案、监控告警(Prometheus/Grafana)、日志分析(ELK),保障 IM 消息、音视频通话稳定性。
主导高并发容量规划:压测,设计弹性伸缩策略,应对百万级 DAU 流量波动。
落地海外合规运维:数据本地化存储、GDPR 合规审计、安全防护(防火墙 / 渗透测试),解决跨区域网络延迟问题。
管理云基础设施(K8s、VPC、SLB、Redis、MQ、数据库、CDN 等),优化稳定性及成本。
负责故障排查、事故复盘、SLO/SLA 制定和持续优化,带领运维 / SRE 团队推进自动化、平台化。
任职要求
6 年以上运维 / SRE 经验,精通海外云平台、Kubernetes、Docker 容器化技术。
深入理解分布式系统运维,熟悉 Spring Cloud 微服务、Redis、MQ、数据库(MySQL/NoSQL)、CDN 等组件的监控与优化。
有百万级 DAU 高并发系统运维经验,主导过社交 App 或音视频平台的稳定性建设,能快速排查海外网络、服务故障。
熟练掌握自动化脚本(Shell/Python)、基础设施即代码(Terraform/Ansible),熟悉 SLO/SLA 制定与故障复盘流程。
熟练掌握监控与可观测性工具(Prometheus、Grafana、ELK/EFK、SkyWalking/Jaeger 等)。
具备团队管理能力与跨团队沟通能力,了解海外合规要求(GDPR)。
加分项
英语良好
有IM / RTC服务运维经验;
熟悉 Chaos Engineering、SRE 体系(Error Budget);
持有阿里云相关认证(如 ACP);
有多区域部署与合规运维经验。