职位详情
GPU服务器维护工程师
1.6-2.5万
盈峰环境
长沙
3-5年
本科
08-06
工作地址

长沙中联重科环境产业有限公司

职位描述
工作职责:
1、GPU服务器技术支持
- 7x24快速响应:对英伟达GPU服务器及集群(包括单机、显卡、主板、电源模块、网络层面)出现的硬件、软件、性能故障进行快速响应、精准诊断和高效修复
- 应急处理: 制定和执行大规模集群故障的应急预案,在重大故障发生时能迅速组织资源进行恢复,最大限度减少停机时间和对客户业务的影响
2、日常运维与监控
- 负责英伟达GPU服务器(如DGX系列/HGX系列/自研服务器)及集群(NVLink, InfiniBand/Ethernet网络)的安装、配置、监控、维护和升级
- 使用专业工具(如DCGM, NVIDIA System Management, Prometheus, Grafana, Zabbix, ELK等)监控集群健康状态、性能指标(GPU利用率、显存、温度、功耗、网络带宽/延迟等),及时发现潜在问题
3、技术协同
- 与硬件供应商(如NVIDIA, OEM厂商)、IDC团队、网络团队、研发团队及客户技术支持团队紧密协作,解决复杂问题
任职资格:
1、基础条件
- 计算机/电子工程本科及以上学历,3年以上大型数据中心服务器(尤其是英伟达GPU服务器)运维经验
- 持有NVIDIA认证工程师资质(如NCA/NCP)者优先,熟悉Hopper架构与SXM模块化设计原理
- 具有处理大规模(百卡/千卡级别以上优先)GPU集群实际运维和故障处理经验
- 熟悉服务器硬件(CPU, 内存, 存储, RAID, PSU)的故障诊断与更换
2、优先考虑
- 有管理NVIDIA DGX SuperPOD或类似大规模参考架构集群的经验
- 拥有NVIDIA相关认证(如NVIDIA Certified Associate - Data Center Deployment, NVIDIA Certified Professional - Data Center)
- 头部互联网公司或大型公有云数据中心运维背景

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请