职位介绍
岗位职责:
1.处理常见英伟达GPU服务器故障,如 显卡报错、NVLink通信异常、电源模块故障、散热问题 等。
2.按技术维修规范操作,负责主流厂商(包括不限于超微、华硕、技嘉、浪潮,华三等)GPU服务器的现场硬件检测、故障诊断及维修,或远程技术指导。
3.承担 GPU 服务器的安装、调试、上架、升级、改配工作,并完成相应的软件适配,包括 BIOS / 固件更新、驱动程序安装与调试等
4.撰写维修报告,记录故障案例,协助团队优化维修流程,提高维修效率,降低返修率。
5.维护现场客户关系及满意度。
任职要求:
1.计算机、电子工程、通信等相关专业,专科及以上学历
2.熟悉 NVIDIA/AMD 主流显卡架构(如 Hopper/Ada Lovelace 等)者优先考虑
3.一年以上阿里、字节客户处的液冷服务器维修经验或者GPU服务器维修经验
4.熟练使用 Linux 命令行,能够运用自动化工具(Ansible/Kubernetes 等)进行服务器管理,掌握监控平台(Prometheus 等)的配置与使用;熟悉服务器 BMC 管理(IPMI/RedFish);
5.熟悉集群管理工具(Slurm 等)的操作;其他信息行业要求:计算机硬件,IT服务