岗位职责:
1、负责服务器(物理机/云主机)、网络、存储等基础设施的部署、配置和维护;
2、管理云计算资源(AWS/Azure/阿里云/腾讯云),优化成本与性能,维护高可用架构(负载均衡、集群、容灾备份);
3、使用CI/CD工具(Jenkins/GitLab CI/CD)实现自动化构建、测试、部署;
4、开发运维脚本(Shell/Python)提升效率,如日志分析、自动扩缩容;
5、搭建监控系统(Prometheus+Grafana)实现实时告警;
6、快速响应线上故障,进行根因分析(RCA)并优化系统;
7、实施安全策略(防火墙、WAF、漏洞扫描、权限管理),符合行业合规要求(如GDPR、等保2.0、ISO27001),定期进行安全审计、渗透测试和应急演练;
8、与开发团队协作,优化应用架构(微服务、无状态化),编写技术文档(运维手册、故障处理流程、应急预案)。
任职要求:
1、熟悉Linux/Windows服务器管理(Shell/PowerShell),掌握TCP/IP、HTTP/HTTPS、DNS、CDN等网络协议,熟练使用 Nginx/Apache、MySQL/PostgreSQL、Redis/MongoDB等中间件;
2、熟练使用Jenkins/GitLab CI/GitHub Actions搭建CI/CD流水线,熟悉IaC(Terraform/Ansible)管理云资源;
3、熟悉Prometheus+Grafana、Zabbix、ELK(Elasticsearch+Logstash+Kibana),了解分布式追踪(Jaeger、SkyWalking)和APM(New Relic、Datadog);
4、熟悉至少一家主流云平台(AWS/Azure/阿里云/华为云);
5、熟悉WAF、IDS/IPS、零信任架构,有安全加固、漏洞扫描(Nessus/OpenVAS)经验者优先;
6、能快速定位线上问题(如性能瓶颈、网络延迟),适应7×24小时应急响应,处理突发故障,与开发、测试、产品团队紧密配合,推动运维优化;
7、具备良好的执行能力、沟通协调能力、团队合作能力、责任心和抗压能力;
8、可以接受应届生和实习生。