岗位职责
1、按照故障处理SLA要求响应智算机房各类运维工单,严格遵循SOP流程执行操作,涵盖设备的上下架、硬件部件更换、机房布线等操作
2、负责智算机房GPU服务器、交换机等设备的日常巡检、状态汇总、故障跟踪处理及总结归档
3、及时响应并处理机房紧急突发情况(如服务器宕机、网络中断、服务器硬件故障等),严格按流程执行处理、记录等工作
4、具备较强的责任心与沟通能力,确保智算机房运维安全规范,最快程度完成故障处理,保障训练业务的稳定运行
任职要求
1、熟悉GPU服务器、服务器各部件如GPU/网卡/存储卡/CPU/内存等配置与特性,熟练掌握各类服务器部件故障排障手段与经验;
2、熟悉交换机基础命令,能完成交换机基础配置与检查;
3、1年以上智算机房/数据中心运维经验,有GPU集群硬件运维经验者优先;
4、熟悉IDC机房运维环境与安全规范;
5、熟练操作Linux系统(CentOS/Ubuntu),熟悉硬件查询命令及常用系统命令,能进入单用户模式进行系统操作;
6、具备智算机房应急事件处理能力,如GPU掉卡、网络中断、机房温湿度异常等情况的快速响应与处理;
7、对智算机房常见的服务器、交换机运维流程能熟练掌握,并能识别流程中的潜在风险;
8、具有较强责任心,具备良好的团队协作与沟通能力,能跨部门配合推进运维工作;
9、本科及以上学历,计算机科学与技术、电子信息工程等计算机相关专业