「南京秦淮区 SRE运维工程师招聘」_2026年天翼数字生活科技有限公司招聘-智联招聘

职位详情

SRE运维工程师

1.5-3万

天翼数字生活科技有限公司

南京

5-10年

本科

11-12

工作地址

通服大厦

职位描述

岗位要求

1、计算机科学、信息技术或相关领域的本科及以上学历，五年以上较大规模业务平台维护经验；
2、精通Linux操作系统维护、内核性能调优、TCP/IP、HTTP等协议，有良好的网络、数据存储、计算机体系结构方面的知识，具备的很强技术敏感度和故障排查经验；
3、熟练使用Python/Shell/Go等至少一种语言，可开发自动化运维脚本及工具。
4、熟悉网络协议，熟悉常见的网络问题分析和处理，熟悉主机路由、防火墙配置及维护；
5、有nginx、web server、分布式系统、Redis、RocketMQ、ELK、Mysql等主流应用组件的高可用架构设计以及维护经验；熟悉prometheus/ELK/全链路端到端监控体系；熟悉腾讯云/阿里云/天翼云等云厂商产品的运维；
6、熟悉容器化(k8s/docker）架构及常见云平台运维技术，有较大规模生产环境的k8s容器集群部署和维护经验者优先；
7、工作细致、善于思考，有很强的问题分析和解决的能力；强烈的责任心、良好的沟通和协调能力、极强的业务推动能力、勇于接受挑战；具备较强的文档编写能力。
8、愿意接受7*24小时根据监控系统或人工报障信息，随时处理线上系统故障，保障系统稳定运行。

岗位职责

1. 主导故障与风险全流程管控：根据公司运维管理办法，组织运维、研发等跨团队排查定位现网故障、性能瓶颈及安全风险，推动快速恢复；负责故障根因分析并输出报告，提炼改进措施形成闭环管理。
2. 负责隐患治理与架构优化：定期开展系统隐患巡检与容量评估，制定并推动架构瓶颈、资源冗余等问题的优化方案落地；参与服务可运维性设计评审和运维架构迭代，推动高可用、容器化、弹性伸缩等技术落地提升系统稳定性和扩展性。
3. 完善监控与指标体系：持续完善端到端全链路监控体系，整合日志、链路追踪等工具实现早发现早预警；制定SLI/SLO/SLA核心指标，设计定制化监控看板及告警策略。
4. 推进跨团队协同攻坚：与产品、研发、测试等团队的常态化协作，提前介入运维需求评估；提前发现设备长连接、升级、高并发等核心并发场景中，可能引入的风险，并协同研发规避。
5. 保障变更与事件管理：组织平台变更管理，覆盖申请、评审、灰度、回滚及复盘全环节；按事件管理流程分级处置现网事件，确保SLA内闭环并优化流程。

备注：合同主体为第三方外包公司。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕