8000-13000元
两江大道重庆市江北区鱼嘴镇两江大道182号
NVIDIA 维保工程师招聘信息
职位名 NVIDIA 硬件维保工程师(全职/驻场)
工作地点
[重庆](可接受国内重点数据中心驻场)
岗位职责
1. 硬件维护
- 负责 NVIDIA H200H100 H800等设备, HGX 系统的日常巡检、故障诊断与硬件更换(GPU、NVLink、电源模块等)。
- 执行固件升级(如从 HGX 1.5.0 升级至 1.7.0),确保兼容性与稳定性。
2. 故障处理
- 快速响应客户报修,解决 HBM3e内存异常、NVLink通信中断、液冷系统泄漏等典型问题。
- 分析日志(如 BMC/IPMI 日志),定位硬件或驱动层故障。
3. 性能优化
- 配合客户完成 MLPerf/ResNet 基准测试,调优 CUDA 12.5+ 环境下的计算性能。
- 优化 多节点集群(8-GPU及以上)的 InfiniBand/RDMA 网络配置。
4. 文档与培训
- 编写维保报告、SOP操作手册,并对客户进行基础技术培训。
任职要求
硬性条件
- 学历:大专及以上,计算机/电子工程/自动化相关专业。
- 经验:
- 3年以上 服务器/GPU 硬件维保经验,熟悉 NVIDIA Tesla/HGX 系列优先。
- 至少参与过 1次HGX架构升级项目。
- 技能:
- 熟练使用 NVFlash、nvidia-smi、DCGM 等工具。
- 能解读 PCIe/NVLink 拓扑错误(如 `lspci -tv` 输出)。
- 了解 液冷系统 基本维护(如管路密封性检测)。
- 基础Python/Bash脚本能力
优先项
- 持有 **NVIDIA 认证工程师(NCA/NCIP)或 华为/浪潮服务器认证。
- 熟悉 Kubernetes/Slurm 在GPU集群中的管理。
薪资福利
- 薪资范围:15K-30K/月(视经验+认证)。
- 福利:
- 五险 + 技术培训。
- 差旅覆盖(全国重点数据中心技术支持需求)。
- 提供 H200/HGX 1.7.0 真机实操环境。
工作场景示例
- 客户报修:“H200节点训练任务突然中断,`dmesg` 显示 `NVLink CRC Error`。”
- 你的行动:
1. 通过 Base Command Manager 检查GPU状态。
2. 更换故障NVLink桥接器,重新校准链路。
3. 执行 nccl-test 验证多卡通信恢复。
应聘方式
1. 简历投递:******************(标题:H200维保-姓名-3年经验)。
2. 附上:
- 过往处理的 GPU相关故障案例(描述+解决过程)。
- 证书扫描件(如有)。
注:本岗位需接受 7×24小时紧急响应(月度轮值制)。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕