职位详情
服务器硬件维护工程师(J13385)
8000-12000元·14薪
盈峰环境
杭州
3-5年
本科
05-01
工作地址

临平桂花城

职位描述
岗位职责:
1、硬件维护
负责GPU服务器的安装、调试、上架、故障诊断及维修。
定期检查硬件状态(GPU、CPU、内存、硬盘、电源等),确保设备稳定运行。
配合供应商处理硬件保修或更换(如GPU烧毁、显存故障等)。
2、集群与驱动管理
管理大规模GPU集群(万卡级),支持算力网络架构(IB/RoCE/NVLink/PCIe),优化集群性能(HPL/HPCG基准测试),解决网络通信、存储(Lustre/CephFS)及算力调度(Slurm/PBS)问题。
部署与维护监控系统(Prometheus/Grafana/Zabbix),实时跟踪GPU利用率、功耗及健康状态,构建故障预警机制,设计HA测试方案(故障注入/灾备切换)。
3、硬件与软件适配
执行服务器硬件改配(如GPU升级、液冷方案部署)及软件适配(驱动安装、BIOS/固件更新),确保与操作系统(Linux/CentOS)、虚拟化平台(Docker/Kubernetes)及AI框架(CUDA/TensorRT)的兼容性。
参与智算中心交付,配合完成服务器上架、网络配置及压力测试,支持异构加速场景(大模型训练/推理)。
4、文档与协作
编写运维手册、故障处理SOP及巡检报告,维护维修案例库,记录硬件生命周期(故障历史、配件更换)。
与研发、售前团队协作,解决复杂技术问题(如硬件兼容性、性能瓶颈),提供客户技术培训及方案定制。
探索前沿技术(如Chiplet异构集成、存算一体架构),优化运维自动化工具(Ansible/Python脚本),提升故障处理效率。
任职要求:
1、专业背景
计算机、电子工程、通信等相关专业,本科及以上学历;3年以上GPU服务器维护或数据中心运维经验,熟悉NVIDIA/AMD主流显卡架构(如Hopper/Ada Lovelace)者优先。
2、核心技能
硬件能力:精通GPU服务器拆装、故障诊断(如错误代码解析),掌握焊接工具(热风枪、示波器)及备件管理,熟悉服务器BMC管理(IPMI/RedFish)。
软件与工具:熟练使用Linux命令行,掌握自动化工具(Ansible/Kubernetes)、监控平台(Prometheus)及集群管理工具(Slurm);熟悉Python/Shell脚本开发。
网络与架构:理解IB/RoCE网络协议、RDMA原理,掌握集群文件系统(Lustre/NFS)部署与调优,熟悉PCIe/CXL接口规范。
3、软技能
具备快速故障定位能力(MTTR优化),能在7×24小时轮值中响应紧急事件;良好的客户沟通能力,适应定制化服务需求。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请