岗位职责
1. CEPH集群与存储系统运维:主导CEPH分布式存储集群的部署、扩容、监控与故障排查,负责服务器存储设备(如磁盘阵列、SSD/HDD等)的规划、配置、巡检及性能调优,确保存储资源高效分配与数据安全可靠。
2. IT基础设施运维保障:维护公司服务器、网络设备等IT基础设施的稳定运行,负责IDC机房日常运维,快速响应并解决服务器宕机、网络中断等各类运维问题,保障核心业务系统服务质量与连续性。
3. 数据安全与风险防控:负责存储系统的数据备份、恢复策略制定与执行,落实数据加密、访问权限管控等安全措施;参与IT系统安全审计与漏洞修复,防范数据泄露、勒索病毒等安全风险。
4. 自动化与DevOps支撑:探索运维新技术与工具,完善自动化部署、监控及故障自愈系统,搭建并维护持续集成/持续交付(CI/CD)流程,为研发团队提供高效的交付支持,提升运维自动化水平。
5. 流程与规范完善:梳理并优化存储运维、基础设施管理等相关流程,制定标准化操作规范(SOP),沉淀运维经验,提升团队工作效率与问题解决质量。
任职资格要求
1. 本科及以上学历,计算机相关专业,3年以上Linux服务器运维工作经验,其中1年以上CEPH分布式存储集群运维经验。
2. 精通Linux操作系统(如CentOS、Ubuntu)的配置、优化与故障排查,具备IDC机房物理设备运维实战经验,熟悉服务器硬件故障诊断与处理。
3. 深入理解CEPH存储原理,具备集群部署、性能调优、故障恢复(如PG异常、OSD下线等)的实战能力;熟悉主流存储协议(iSCSI、NFS、SMB等)。
4. 熟悉TCP/IP协议栈,掌握Nginx、Redis、MySQL等常用中间件与数据库的运维配置;了解主流网络设备(交换机、路由器、防火墙)的基本配置与管理。
5. 熟悉虚拟化和容器技术,具备PVE、K8S集群管理能力。
6. 具备基础的编程与脚本开发能力,能够独立使用Python、Shell编写自动化运维脚本(如批量部署、监控告警、故障排查等),提升运维效率。
7. 具备IT安全基础知识,熟悉数据安全、网络安全防护体系,了解常见安全威胁(如DDoS、恶意软件)的应对策略,有安全漏洞修复或安全审计经验者优先。
8. 具备强烈的责任心与抗压能力,拥有优秀的问题分析解决能力、跨部门沟通协调能力及团队协作精神,能快速响应突发运维事件。