职位描述:
1、为部署在大型数据中心、AI实验室和云服务商中的高端计算硬件(如NVIDIA H系列、A系列,或国产算力卡)提供技术支持;
2、需解决从硬件故障、驱动兼容性到大规模集群性能调优的全栈技术挑战,确保客户AI业务和科学计算的稳定与高效运行;
主要职责:
1、现场技术支持,负责GPU算力卡及其服务器(如DGX/HGX系统、自主品牌AI服务器)的现场部署、上架、调试及故障诊断(包括硬件更换、固件升级等);
2、快速响应和解决客户在GPU驱动、容器环境、深度学习框架和作业调度平台中遇到的技术问题。
任职要求:
1、 计算机科学、电子信息、通信工程或相关专业本科及以上学历;
2、深刻理解GPU算力卡(如NVIDIA/AMD/国产芯片)的硬件架构,熟悉其供电、散热和高速互连(NVLink/NVSwitch)特性,具备服务器硬件级故障诊断能力;
3、领会NVIDIA GPU软件栈、驱动程序、CUDA Toolkit、cuDNN、TensorRT、NCCL;
4、熟悉Linux操作系统(特别是Ubuntu/CentOS);
5、可适应出差;
6、良好的沟通表达能力;
工作地点:西宁市及其周边地区(西宁市湟中区锦川大道200号中国联通三江源绿电智算融合示范园)
职位福利:五险一金、带薪年假、员工旅游、节日福利、年终奖 。