职位详情
GPU服务器运维工程师
1.8-3万
成都弘智融信科技有限责任公司
重庆
不限
大专
08-12
工作地址

两江大道重庆市江北区鱼嘴镇两江大道182号

职位描述
岗位职责:我们主要负责A100 h100 h800 h20维保这一块,公司售出机器的保内售后的判断,更换部件,部署,这一块业务
1. 负责GPU服务器的安装、调试、上架、故障诊断及更换。
2. 定期检查硬件状态,确保设备稳定运行。
3. 配合供应商处理硬件保修或更换。
4. 管理大规模GPU集群,优化集群性能,解决网络通信、存储及算力调度问题。
5. 部署与维护监控系统,构建故障预警机制,设计HA测试方案。
6. 执行服务器硬件改配及软件适配,确保兼容性。
7. 参与智算中心交付,支持异构加速场景。
8. 编写运维手册、故障处理SOP及巡检报告,维护维修案例库。
9. 与研发、售前团队协作,解决复杂技术问题,提供客户技术培训及方案定制。
10. 探索前沿技术,优化运维自动化工具,提升故障处理效率。


以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请