职位详情
AI服务器部署工程师
2-3万
成都弘智融信科技有限责任公司
重庆
不限
不限
08-11
工作地址

两江大道重庆市江北区鱼嘴镇两江大道182号

职位描述
岗位职责:
1. 负责H100/H200等AI服务器的硬件安装和部署。
2. 理解并应用Hopper架构特性,进行系统性能调优。
3. 设计并实施服务器硬件安装规范,包括GPU插槽兼容性、供电需求和散热方案。
4. 规划机柜布局,考虑高密度部署的散热与承重设计。
5. 配置网络,包括InfiniBand/RoCE网络拓扑和交换机调优。
6. 执行操作系统定制化安装,如Ubuntu/CentOs等Linux发行版。
7. 精通GPU驱动、NVSwitch固件、网卡驱动等版本匹配,确保系统稳定性。
8. 容器化部署,熟练使用NGC容器、Kubernetes编排。
9. 使用基准测试工具进行性能分析,执行初始性能验证。

岗位要求:
1. 熟悉Hopper架构特性,如Transformer引擎、DPX指令集、机密计算。
2. 了解H200与H100的关键差异,包括HBM3e显存、带宽提升。
3. 熟悉PCIeGen5/NVLink 4.0拓扑,包括多卡互联、DGX/MGX系统。
4. 掌握服务器硬件安装规范和机柜规划。
5. 具备网络配置能力,包括InfiniBand/RoCE网络拓扑和交换机调优。
6. 精通操作系统安装和驱动与固件版本匹配。
7. 熟练使用NGC容器和Kubernetes编排。
8. 掌握性能分析工具,如`nvidia-smi`、`dcgm`、NsightSystems。
9. 能够运行MLPcrf基准测试或客户业务负载验证吞吐量。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请