岗位职责
1.基础设施管理与维护:负责公司服务器(物理机 / 虚拟机)、云资源(AWS / 阿里云 / 腾讯云)的部署、监控与优化,保障服务器集群稳定运行,合理规划资源分配,降低运维成本。
2.自动化运维体系搭建:设计并落地 CI/CD 流水线(Jenkins/GitLab CI/GitHub Actions),实现代码提交、构建、测试、部署全流程自动化,提升研发交付效率;编写 Shell/Python/Ansible 脚本,简化重复性运维操作。
3.监控与故障应急响应:搭建全链路监控系统(Prometheus+Grafana/Zabbix),实时监控服务器性能、应用服务状态及业务指标;制定应急预案,7×24 小时响应线上故障(如服务宕机、数据丢失),快速定位并解决问题,减少业务损失。
4.数据安全与合规保障:负责服务器安全加固(如防火墙配置、漏洞扫描)、数据备份与恢复策略制定,定期开展安全审计,确保符合行业合规要求(如等保 2.0、GDPR);管理账号权限,防范数据泄露风险。
5.跨团队协作与技术支持:对接研发、测试、产品团队,提供运维技术支持,协助解决开发环境配置、测试环境稳定性等问题;参与技术方案评审,推动运维最佳实践在团队内落地,提升整体技术效率。
任职要求
(一)基础门槛
1.本科及以上学历,计算机相关专业,2 年以上软件运维或 DevOps 实战经验。
2.熟悉 Linux 操作系统(CentOS/Ubuntu),能熟练使用命令行完成系统配置、进程管理、日志分析等操作。
3.掌握至少一种编程语言(Shell/Python/Go),具备脚本开发能力,能独立编写自动化运维工具。
(二)核心技能
1.精通云平台运维(阿里云 / 腾讯云 / AWS 至少一种),熟悉 ECS、RDS、SLB、OSS 等云服务的配置与优化,能应对云资源扩容、迁移等场景。
2.熟练搭建与维护容器化环境(Docker+Kubernetes),了解 K8s 核心组件(Pod/Deployment/Service/Ingress)的工作原理,能解决容器编排、资源调度相关问题。
3.掌握监控与日志系统,熟悉 Prometheus、Grafana、ELK Stack(Elasticsearch+Logstash+Kibana)的部署与使用,能自定义监控指标与告警规则。
4.熟悉版本控制工具(Git)与 CI/CD 流程,能独立搭建自动化部署流水线,实现应用的灰度发布、回滚等操作;了解 Maven/Gradle 等构建工具。
5.具备数据库运维基础,熟悉 MySQL/Redis/MongoDB 的安装、配置、备份与性能调优,能处理常见数据库故障(如主从同步异常、慢查询优化)。
(三)加分项
1.拥有云厂商认证(如阿里云 ACE、AWS Certified DevOps Engineer)或 Kubernetes 相关认证(CKA/CKAD)。
2.有大型分布式系统运维经验,或电商、金融、直播等高并发业务运维背景,熟悉高可用架构设计。
3.了解服务网格(Istio)、Serverless 架构(Knative),或有自动化测试(Selenium/JMeter)、混沌工程实践经验。
4.具备网络基础知识,熟悉 TCP/IP 协议、路由交换、VPN 配置,能排查网络连通性、端口转发等问题。
5.具备基础网络安全知识,了解网络安全管理范围,知晓针对主机,客户端,以及代码安全等的安全手段。
(四)软性素质
1.具备强烈的责任心与应急处理能力,能承受线上故障压力,主动推进问题解决。
2.良好的逻辑思维与沟通能力,善于跨团队协作,能清晰表达技术方案与运维风险。
3.有自驱力与学习能力,关注运维领域新技术(如云原生、AIOps),愿意持续提升技术水平。