职位详情
ai运维工程师
1.8-3万
成都弘智融信科技有限责任公司
重庆
1-3年
本科
08-11
工作地址

两江大道重庆市江北区鱼嘴镇两江大道182号

职位描述
岗位职责:
对GPU服务器A100、A800、H100、H800、H200等型号 进行性能监控与故障处理
1、GPU云服务器维护,包括日常报警巡检,集群使用状态记录,处理系统报警;GPU状态检查,定期进行GPU状态检查,是否有ECC报警;GPU使用问题,客户在使用过程中遇到的问题,如驱动兼容性,任务失败原因;环境搭建,为GPU服务器,搭建cuda工具相关依赖,conda虚拟环境等
2,有搭建GPU测试环境的能力,如(GPU burn、Field diag、DCGM)等测试工具,定位GPU问题(如算力异常、ECC、散热问题);
3,负责GPU服务器的安装、调试、上架、故障诊断及更换。 定期检查硬件状态,确保设备稳定运行。 配合供应商处理硬件保修或更换。
4. 执行服务器硬件改配及软件适配,确保兼容性。

5. 与售前,售后团队协作,解决技术问题,。


岗位要求:
1. 计算机/电子工程相关专业,熟悉英伟达GPU架构及CUDA生态
2. 精通GPU服务器拆装、故障诊断,备件管理,熟悉服务器BMC管理。
3. 熟练使用Linux命令Python/Shell脚本开发能力,
4.了解AI/HPC场景者有AI服务器整机及GPU测
试经验更佳;

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请