岗位要求
1、计算机科学、信息技术或相关领域的本科及以上学历,五年以上较大规模业务平台维护经验;
2、精通Linux操作系统维护、内核性能调优、TCP/IP、HTTP等协议,有良好的网络、数据存储、计算机体系结构方面的知识 ,具备的很强技术敏感度和故障排查经验;
3、熟练使用Python/Shell/Go等至少一种语言,可开发自动化运维脚本及工具。
4、熟悉网络协议,熟悉常见的网络问题分析和处理,熟悉主机路由、防火墙配置及维护;
5、有nginx、web server、分布式系统、Redis、RocketMQ、ELK、Mysql等主流应用组件的高可用架构设计以及维护经验; 熟悉prometheus/ELK/全链路端到端监控体系;熟悉腾讯云/阿里云/天翼云等云厂商产品的运维;
6、熟悉容器化(k8s/docker)架构及常见云平台运维技术,有较大规模生产环境的k8s容器集群部署和维护经验者优先;
7、工作细致、善于思考,有很强的问题分析和解决的能力;强烈的责任心、良好的沟通和协调能力、极强的业务推动能力、勇于接受挑战;具备较强的文档编写能力。
8、愿意接受7*24小时根据监控系统或人工报障信息,随时处理线上系统故障,保障系统稳定运行。
岗位职责
1. 主导故障与风险全流程管控:根据公司运维管理办法,组织运维、研发等跨团队排查定位现网故障、性能瓶颈及安全风险,推动快速恢复;负责故障根因分析并输出报告,提炼改进措施形成闭环管理。
2. 负责隐患治理与架构优化:定期开展系统隐患巡检与容量评估,制定并推动架构瓶颈、资源冗余等问题的优化方案落地;参与服务可运维性设计评审和运维架构迭代,推动高可用、容器化、弹性伸缩等技术落地提升系统稳定性和扩展性。
3. 完善监控与指标体系:持续完善端到端全链路监控体系,整合日志、链路追踪等工具实现早发现早预警;制定SLI/SLO/SLA核心指标,设计定制化监控看板及告警策略。
4. 推进跨团队协同攻坚:与产品、研发、测试等团队的常态化协作,提前介入运维需求评估;提前发现设备长连接、升级、高并发等核心并发场景中,可能引入的风险,并协同研发规避。
5. 保障变更与事件管理:组织平台变更管理,覆盖申请、评审、灰度、回滚及复盘全环节;按事件管理流程分级处置现网事件,确保SLA内闭环并优化流程。
备注:合同主体为第三方外包公司。