职位描述
1. 负责算力中心值班期间的全面运维管理工作,统筹服务器集群、算力调度平台、存储资源及网络设备的实时监控与运行保障,确保算力资源7×24小时稳定输出,满足业务算力需求。
2. 实时监测算力节点运行状态、资源利用率、能耗及故障告警信息,快速响应并牵头处理算力集群宕机、算力调度异常、网络中断等突发故障,制定应急处置方案,最大程度缩短故障恢复时间,降低业务损失。
3. 带领值班团队执行标准化运维操作,包括设备巡检、系统升级、补丁安装、算力资源分配与调整等,规范值班记录与故障处理台账,确保运维操作可追溯、可复盘。
4. 负责值班团队的现场管理与任务分配,明确各岗位值班人员职责,协调团队成员高效协作,组织班前交底与班后复盘,及时解决值班过程中的协作问题。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕