职位描述
岗位职责
1. 服务器与硬件基础设施管理
- 负责物理服务器、虚拟机(VMware/KVM 等)的部署上架、硬件配置(CPU、内存、硬盘、RAID 阵列)及网络端口调试,确保硬件资源合规上线。
- 定期执行服务器硬件巡检,监控硬件健康状态(如硬盘 S.M.A.R.T 信息、电源稳定性、散热系统),及时发现并处理硬件故障(如硬盘损坏、内存报错),协调供应商完成维修或更换。
- 监控服务器硬件资源使用率(CPU、内存、磁盘 IO、网络带宽),结合业务增长趋势预判资源瓶颈,输出扩容方案并推动实施。
2. 操作系统部署与维护
- 主导 Linux(CentOS、Ubuntu、RedHat 等)、Windows Server 操作系统的安装、初始化配置与优化,包括系统内核参数调整、网络参数优化、文件系统规划等。
- 负责操作系统日常维护,包括系统补丁更新、安全漏洞修复、用户账号与权限管理(遵循最小权限原则)、系统日志清理与归档。
- 排查并解决操作系统层面故障,如系统崩溃、进程异常占用资源、磁盘挂载失败、网络连接异常等,确保操作系统稳定运行。
3. 中间件与数据库运维
- 负责核心中间件的部署、配置与维护,包括 Web 服务器(Nginx、Apache)、应用服务器(Tomcat、Jetty)、缓存服务(Redis、Memcached)等,保障中间件服务高可用。
- 负责关系型数据库(MySQL、PostgreSQL、SQL Server)及非关系型数据库的安装、配置、备份、恢复与性能优化,包括索引优化、SQL 语句调优、主从复制搭建等。
- 监控中间件与数据库运行状态(连接数、响应时间、吞吐量、错误率),制定监控告警策略,及时处理服务异常(如连接数满、缓存穿透、数据库死锁)。
4. 运维自动化与标准化建设
- 基于 Shell、Python 等脚本语言开发自动化工具,实现批量服务器操作、系统巡检、日志收集、故障告警等场景的自动化,减少重复人工操作。
- 运用 Ansible、SaltStack 等配置管理工具,搭建服务器批量配置、软件批量部署的自动化体系,提升运维效率与操作准确性。
- 制定并完善操作系统、中间件、数据库等运维标准规范与操作手册,推动团队运维操作标准化,降低人为失误风险。
5. 数据备份与灾备管理
- 根据业务数据重要性,制定差异化数据备份策略(全量备份、增量备份、差异备份),选择合适的备份工具(如 mysqldump、xtrabackup)与存储介质,确保备份策略合规。
- 定期执行数据备份操作,验证备份数据的完整性与可恢复性,形成备份验证报告;监控备份任务执行状态,处理备份失败问题
6. 故障应急与协作支持
- 快速定位并解决系统层面突发故障(如服务器宕机、系统性能骤降、数据异常),减少故障对业务的影响,事后输出故障分析报告(RCA)。
- 为研发团队提供环境支持,协助搭建开发、测试、预发布环境,保障环境一致性;配合研发团队进行版本发布、代码部署等操作,提供技术支撑。
- 与运维、业务部门保持协作,共同解决跨部门技术问题,参与 IT 系统架构优化讨论,提出系统层面优化建议。
- 任职要求
- 本科及以上学历,计算机科学与技术、软件工程、信息管理等相关专业。
- 3 年及以上系统运维相关工作经验,有互联网、金融、大型企业 IT 运维经验者优先。
- 具备大型服务器集群(100 台以上)运维经验,或云服务器(阿里云、AWS 等)运维经验者优先。
- 操作系统:精通 Linux 操作系统,熟练掌握系统内核调优、进程管理、文件系统、网络配置(TCP/IP、路由、防火墙);熟悉 Windows Server 系统基本操作。
- 软件运维:熟练掌握 Nginx、Tomcat、Redis、MySQL 等常用中间件与数据库的部署、配置、故障排查及性能优化;了解 Kafka、Elasticsearch 等组件者优先。
- 自动化工具:掌握 Shell、Python 至少一种脚本语言,能独立编写自动化脚本;熟悉 Ansible、Zabbix、Prometheus、Grafana 等运维工具的使用与配置。
- 故障排查:具备较强的逻辑分析能力与问题解决能力,能通过日志、监控数据快速定位并解决复杂系统故障;有大型系统故障应急处理经验者优先。
- 安全意识:具备基础的系统安全知识,熟悉常见系统漏洞与防护手段,了解等保 2.0 相关要求者优先
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕