职位描述
职位描述
1. 保障在线业务系统的可靠性与健康性,重点关注系统容量与稳定性。
2. 推动提升服务的可靠性、扩展性和性能优化,降低服务成本消耗。
3. 提出和实施改进服务稳定性及运维灵活性的方案,不断优化现有技术栈,提升运维效率。
4. 优化最佳实践,包含关键链路性能分析、业务问题定位排障、推进系统高可用架构改造升级。
5. 参与相关专项治理活动,提升事业部SRE效能。
6. 负责日常云上问题定位排查,跟踪问题处理。
7. 组织和协调部门内部演练,确保团队在突发事件中能够快速响应和处理。
8. 负责制定和管理值班计划,确保节假日期间系统的稳定运行。
任职资格
1. 计算机或相关专业本科以上学历,运维开发经验。
2. 具备良好的团队合作精神、较强的自驱力、抗压能力、沟通能力、责任心。
3. 具有较强的逻辑思维能力和一定的问题抽象能力,并有很强的沟通以及主动推进问题直至解决问题的能力。
4. 熟悉SRE的主要职责,对可用性保障工作有深刻理解和认同。
5. 精通Linux系统、网络协议、数据库原理等,具备系统、网络、数据库故障排查经验。
6. 熟悉Nginx、Tomcat、Git、ELK等主流开源软件的性能优化和故障定位。
7. 加分项:对容器、Kubernetes和云技术有了解和使用经验,有数据可视化工具开发相关经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕