岗位职责:
负责SRE团队技术方向制定和团队管理,推动稳定性工程最佳实践落地
设计和优化多云环境下的系统架构稳定性,制定SLI/SLO体系和错误预算管理
主导重大故障应急响应,建立故障处理流程和应急预案
负责容灾体系设计和灾难恢复演练,确保业务连续性
推动跨团队协作,建立SRE文化和稳定性意识
任职要求:
本科及以上学历,计算机相关专业,5年以上大型互联网公司SRE/DevOps经验
精通多云架构设计(AWS、阿里云、GCP、OCI),具备大规模分布式系统稳定性治理经验
熟悉Kubernetes、Docker、服务网格等云原生技术栈
具备优秀的架构设计能力和容灾规划经验
优秀的团队管理和跨部门协作能力
英语读写能力良好,能阅读英文技术文档
Onsite易点天下,外企七险一金,15天年假,试用期100%薪资