岗位要求:
1、熟练使用Linux/unix(centos、ubuntu)、Windows操作系统或者国产系列等主流操作系统(AnolisOS/openEuler)。
2、熟悉网络协议(TCP/IP/HTTP/DNS)和常见网络设备配置,有良好的网络、存储、安全、计算机体系结构方面的知识。
3、精通Shell/Python/Go等至少一门脚本语言,实现自动化运维。
4、深入理解Kubernetes/Docker架构,具备集群搭建、故障处理及性能优化能力。
5、熟悉微服务架构(如SpringCloud)及相关组件(注册中心、消息中间件)。
6、掌握MySQL/Oracle/SQL Server/PostgreSQL/OpenGauss/Redis/Elasticsearch等主流数据库的主从架构、运维、SQL优化及备份恢复。
7、熟悉Nginx/Redis/Kafka/RocketMQ/Tomcat等中间件的配置与调优。
8、熟悉CI/CD流程(GitLab/Jenkins/Ansible工具),具备二次开发经验者优先。
9、熟悉主流开源的服务监控、预警平台的搭建使用。
10、熟悉灰度、蓝绿、双活等部署方式及数据同步、备份、迁移的机制和原理。
11、熟练使用相关日志收集工具和测试工具(如GPU压测工具),进行故障分析、诊断及压测异常处理。
12、具备自动化运维能力、系统均衡容灾设计、故障响应能力、优化资源使用率、有大型集群维护经验者优先。
二、岗位职责
1、系统与服务运维
参与公司整体 IT 基础设施建设与运维。
负责服务器、本地资源的部署、维护、监控与性能调优,保障系统高可用性和稳定性。
管理容器化环境(如Kubernetes/Docker),处理日常故障、性能优化及资源调度。
维护操作系统(Linux/Windows)、中间件、数据库(MySQL、Oracle、PostgreSQL、OpenGauss、Redis等)及微服务组件(如Nacos、Kafka、RocketMQ)。
2、运维流程与工具链
优化生产发布流程(如蓝绿/灰度发布),降低发布风险。
维护监控告警体系(如Prometheus/Zabbix/ELK)、日志系统及DevOps工具链(如GitLab/Jenkins/Ansible)。
开发自动化脚本(Shell/Python)和运维工具,提升运维效率。
3、基础设施与安全
管理网络架构(如DNS/CDN/LVS)、负载均衡及高可用集群(如Keepalived/Nginx)。
落实安全规范,执行漏洞扫描、备份恢复、访问控制及容灾方案。
支持高性能计算集群和大模型平台的部署与运维。
4、技术支持与文档
提供客户技术支持,解决系统使用问题,完成培训及项目验收。
输出运维文档(SOP、报告)、优化方案,并具备跨团队沟通能力。