职位详情
智算中心运维工程师(驻场平谭县)
1.2-1.5万
软通动力信息技术(集团)股份有限公司
福州
3-5年
大专
07-07
工作地址

平潭两岸融合智算中心1

职位描述
核心职责​​
​​1. 算力中心硬件设施运维​​
​​设备巡检与监控:
负责1300P昇腾算力集群的​​服务器、网络设备、存储系统​​的日常巡检,监控温湿度、供电稳定性等环境指标,确保设备运行状态透明化;
按需输出巡检报告,对空转率>30%、设备异常发热等风险及时预警并推动优化。
​​故障应急响应:
7×24小时响应机房故障,主导现场故障定位(如硬件损坏、网络中断),协调厂商完成备件更换,确保​MTTR(平均修复时间)≤4小时;
主导故障复盘,输出根本原因分析报告,推动SOP流程优化。
​​2. 基础设施系统维护​​
​​关键系统运维:
维护机房:电气系统(UPS/PDU)、暖通系统(精密空调)、消防系统,定期检测负载容量与制冷效率,预防宕机风险;
执行弱电系统(综合布线、光纤链路)的日常维护与性能测试。
​​割接与演练:
参与算力集群扩容、设备升级等割接方案审核,确保现场操作100%符合安全规范;
组织应急演练(如断电模拟、消防联动测试),提升团队灾难恢复能力。
​​3. 运维流程与合规管理​​
​​流程标准化:
宣贯并监督基础设施运维SOP执行,确保操作符合ISO 20000/27001标准;
管理机房审计(如设备资产台账、能效报告),推动问题闭环整改。
​​供应商协同:
对接华为昇腾、服务器厂商的技术支持团队,协调现场维保服务;
参与对运营商、外包运维团队的绩效考核,确保服务质量。
​​
任职要求​​
​​1、 学历经验 大专及以上学历,电气/自动化/计算机相关专业,3年以上大型数据中心(≥500P)运维经验
2、技术能力 精通​​机房四大系统​​(电气/暖通/弱电/消防)原理,持有​​高压电工证/制冷操作证​​优先
3、工具技能 熟练使用​​运维监控工具、​​自动化脚本(Shell/Python)
​​
​​专业能力​​:
1、熟悉 算力集群架构(昇腾910B服务器组网、NVLink拓扑),具备硬件故障快速定位能力;
2、掌握 网络安全实践(防火墙策略、漏洞扫描工具如Nmap/AWVS)。
​​软性素质​​:
1、​​高抗压能力​:适应7×24轮班制,节假日“重保期”全程值守;
​​2、协同能力​​:有效联动IT团队、设施供应商,保障跨部门运维效率。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请