职位详情
GPU算力服务器维保主管
1.5-3万
成都弘智融信科技有限责任公司
重庆
1-3年
大专
08-13
工作地址

两江大道重庆市江北区鱼嘴镇两江大道182号

职位描述


NVIDIA 维保工程师招聘信息

职位名 NVIDIA 硬件维保工程师(全职/驻场)

工作地点

[重庆](可接受国内重点数据中心驻场)

岗位职责

1. 硬件维护

- 负责 NVIDIA H200H100 H800等设备, HGX 系统的日常巡检、故障诊断与硬件更换(GPU、NVLink、电源模块等)。

- 执行固件升级(如从 HGX 1.5.0 升级至 1.7.0),确保兼容性与稳定性。

2. 故障处理

- 快速响应客户报修,解决 HBM3e内存异常、NVLink通信中断、液冷系统泄漏等典型问题。

- 分析日志(如 BMC/IPMI 日志),定位硬件或驱动层故障。

3. 性能优化

- 配合客户完成 MLPerf/ResNet 基准测试,调优 CUDA 12.5+ 环境下的计算性能。

- 优化 多节点集群(8-GPU及以上)的 InfiniBand/RDMA 网络配置。

4. 文档与培训

- 编写维保报告、SOP操作手册,并对客户进行基础技术培训。

任职要求

硬性条件

- 学历:大专及以上,计算机/电子工程/自动化相关专业。

- 经验:

- 3年以上 服务器/GPU 硬件维保经验,熟悉 NVIDIA Tesla/HGX 系列优先。

- 至少参与过 1次HGX架构升级项目。

- 技能:

- 熟练使用 NVFlash、nvidia-smi、DCGM 等工具。

- 能解读 PCIe/NVLink 拓扑错误(如 `lspci -tv` 输出)。

- 了解 液冷系统 基本维护(如管路密封性检测)。

- 基础Python/Bash脚本能力

优先项

- 持有 **NVIDIA 认证工程师(NCA/NCIP)或 华为/浪潮服务器认证。

- 熟悉 Kubernetes/Slurm 在GPU集群中的管理。

薪资福利

- 薪资范围:15K-30K/月(视经验+认证)。

- 福利:

- 五险 + 技术培训。

- 差旅覆盖(全国重点数据中心技术支持需求)。

- 提供 H200/HGX 1.7.0 真机实操环境。

工作场景示例

- 客户报修:“H200节点训练任务突然中断,`dmesg` 显示 `NVLink CRC Error`。”

- 你的行动:

1. 通过 Base Command Manager 检查GPU状态。

2. 更换故障NVLink桥接器,重新校准链路。

3. 执行 nccl-test 验证多卡通信恢复。

应聘方式

1. 简历投递:******************(标题:H200维保-姓名-3年经验)。

2. 附上:

- 过往处理的 GPU相关故障案例(描述+解决过程)。

- 证书扫描件(如有)。

注:本岗位需接受 7×24小时紧急响应(月度轮值制)。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请