职位详情
高级运维工程师
2-2.5万·13薪
中国软件
北京
5-10年
本科
03-19
工作地址

中软大厦

职位描述

岗位职责:

1.智能化算力中心运维管理

-全面负责智算中心(含智能算力集群、云计算平台、网络及存储系统等)的日常运维管理,制定并执行标准化运维流程与规范。

-主导监控算力中心基础设施(服务器、GPU集群、制冷系统、电力系统等)运行状态,确保高可用性(SLA≥99.9%)及稳定性。

-快速定位并解决硬件故障、网络中断、资源调度异常等问题,组织团队实施应急预案,最小化业务影响。

2.技术保障与优化

-牵头完成智能算力中心软硬件系统的升级、扩容及性能调优,协同研发团队优化算力资源调度策略与能效管理。

-推动运维自动化建设,设计并落地智能监控、日志分析、故障自愈等工具,提升运维效率。

-负责算力中心安全防护体系(如访问控制、数据备份、灾备方案)的规划与实施,确保符合国家信息安全标准。

3.团队管理与协作

-组建并带领运维技术团队(含网络、系统、安全等方向),分配任务并监督执行,提升团队技术能力与响应效率。

-协调跨部门资源(研发、产品、售前),推动运维需求与业务目标的深度协同。

4.运行状态分析与汇报

-定期汇总算力中心运行数据(资源利用率、故障率、能耗指标等),编制运维分析报告并向管理层汇报。

-基于运行数据提出成本优化、能效提升、技术迭代建议,支撑公司战略决策。

5.标准化与合规

-制定运维文档标准,完善技术手册、故障处理SOP及应急预案库,确保流程可追溯、可复制。

-确保算力中心符合行业监管要求(如等保2.0、数据中心绿色评级等),主导内外部审计与认证工作。


任职要求:

1.专业背景

-计算机科学、电子信息工程、自动化等相关专业本科及以上学历。

-熟悉智算中心/数据中心架构,精通Linux系统、Kubernetes容器编排、云计算平台(如OpenStack/K8s)、网络协议(TCP/IP/SDN)等技术领域。

2.经验与技能

-5年以上大型数据中心/云计算平台运维经验,2年以上团队管理经验,有智算中心或AI算力集群运维背景者优先。

-熟练掌握Prometheus/Zabbix等监控工具、Ansible/Terraform等自动化运维工具,具备Shell/Python脚本开发能力。

-熟悉分布式存储(Ceph/HDFS)、高性能网络(InfiniBand/RDMA)及GPU资源管理(NVIDIADGX集群)者优先。

3.软性素质

-具备优秀的故障排查能力与系统性思维,能在高压环境下快速决策。

-较强的团队管理与跨部门协作能力,擅长技术培训与人才梯队建设。

-责任心强,能适应7×24小时应急响应及阶段性值班安排。

加分项:

-持有ITIL、PMP、RHCA、CKA、等保合规认证者优先。

-熟悉智能运维(AIOps)、预测性维护等前沿技术实践者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

奖金绩效

餐补、话补、年终奖、节日福利、年度体检、补充医疗
立即申请