1.参与业务平台架构评审,提出可靠性需求;
2.执行自动化、安全的发布流程与回滚预案;
3.监控系统状态,响应告警,处理事故,容量管理;
4.事故复盘,优化架构/代码/流程,逐步提升系统健壮性;
5.支撑解决各团队资源使用问题,提高使用效率;
要求:
1.本科及以上学历,硕士优先;计算机、通信类相关专业;
2.5年以上系统运维和Devops经验;
3.至少精通一门开发语言,如GO/Python,能够独立编写工具、自动化脚本等;
4.深入理解Linux内核原理(进程、内存、文件系统、网络栈)、性能调优和故障排查;
5.扎实的TCP/IP、HTTP/HTTPS、DNS、负载均衡等网络协议和架构知识;
6.必须熟练掌握 Docker 和 Kubernetes并有多个业务平部署经验;
7.熟练掌握监控告警,日志链路分析工具并有多个业务平台实践经验;
8.熟悉 Jenkins、GitLab CI、GitHub Actions 等流水线工具,掌握自动化部署流程;
9.有强烈的责任心和团队协作精神。