职位描述
岗位职责:
1. 负责GPU服务器的安装、调试、上架、故障诊断及更换。
2. 定期检查硬件状态,确保设备稳定运行。
3. 配合供应商处理硬件保修或更换。
4. 管理大规模GPU集群,优化集群性能,解决网络通信、存储及算力调度问题。
5. 部署与维护监控系统,构建故障预警机制,设计HA测试方案。
6. 执行服务器硬件改配及软件适配,确保兼容性。
7. 参与智算中心交付,支持异构加速场景。
8. 编写运维手册、故障处理SOP及巡检报告,维护维修案例库。
9. 与研发、售前团队协作,解决复杂技术问题,提供客户技术培训及方案定制。
10. 探索前沿技术,优化运维自动化工具,提升故障处理效率。
岗位要求:
1. 计算机、电子工程、通信等相关专业,本科及以上学历;3年以上GPU服务器维护或数据中心运维经验。
2. 精通GPU服务器拆装、故障诊断,掌握焊接工具及备件管理,熟悉服务器BMC管理。
3. 熟练使用Linux命令行,掌握自动化工具、监控平台及集群管理工具;熟悉Python/Shell脚本开发。
4. 理解网络协议、RDMA原理,掌握集群文件系统部署与调优,熟悉接口规范。
5. 具备快速故障定位能力,能在7×24小时轮值中响应紧急事件;良好的客户沟通能力,适应定制化服务需求。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕