1.5-1.8万
中软大厦
岗位职责:
1.智能化算力中心运维管理
-全面负责智算中心(含智能算力集群、云计算平台、网络及存储系统等)的日常运维管理,制定并执行标准化运维流程与规范。
-主导监控算力中心基础设施(服务器、GPU集群、制冷系统、电力系统等)运行状态,确保高可用性(SLA≥99.9%)及稳定性。
-快速定位并解决硬件故障、网络中断、资源调度异常等问题,组织团队实施应急预案,最小化业务影响。
2.技术保障与优化
-牵头完成智能算力中心软硬件系统的升级、扩容及性能调优,协同研发团队优化算力资源调度策略与能效管理。
-推动运维自动化建设,设计并落地智能监控、日志分析、故障自愈等工具,提升运维效率。
-负责算力中心安全防护体系(如访问控制、数据备份、灾备方案)的规划与实施,确保符合国家信息安全标准。
3.团队管理与协作
-组建并带领运维技术团队(含网络、系统、安全等方向),分配任务并监督执行,提升团队技术能力与响应效率。
-协调跨部门资源(研发、产品、售前),推动运维需求与业务目标的深度协同。
4.运行状态分析与汇报
-定期汇总算力中心运行数据(资源利用率、故障率、能耗指标等),编制运维分析报告并向管理层汇报。
-基于运行数据提出成本优化、能效提升、技术迭代建议,支撑公司战略决策。
5.标准化与合规
-制定运维文档标准,完善技术手册、故障处理SOP及应急预案库,确保流程可追溯、可复制。
-确保算力中心符合行业监管要求(如等保2.0、数据中心绿色评级等),主导内外部审计与认证工作。
任职要求:
1.专业背景
-计算机科学、电子信息工程、自动化等相关专业本科及以上学历。
-熟悉智算中心/数据中心架构,精通Linux系统、Kubernetes容器编排、云计算平台(如OpenStack/K8s)、网络协议(TCP/IP/SDN)等技术领域。
2.经验与技能
-5年以上大型数据中心/云计算平台运维经验,2年以上团队管理经验,有智算中心或AI算力集群运维背景者优先。
-熟练掌握Prometheus/Zabbix等监控工具、Ansible/Terraform等自动化运维工具,具备Shell/Python脚本开发能力。
-熟悉分布式存储(Ceph/HDFS)、高性能网络(InfiniBand/RDMA)及GPU资源管理(NVIDIADGX集群)者优先。
3.软性素质
-具备优秀的故障排查能力与系统性思维,能在高压环境下快速决策。
-较强的团队管理与跨部门协作能力,擅长技术培训与人才梯队建设。
-责任心强,能适应7×24小时应急响应及阶段性值班安排。
加分项:
-持有ITIL、PMP、RHCA、CKA、等保合规认证者优先。
-熟悉智能运维(AIOps)、预测性维护等前沿技术实践者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕