职位详情
GPU服务器运维工程师
7000-14000元
广东华宝云智算技术有限公司
深圳
3-5年
大专
08-27
工作地址

大浪时尚小镇

职位描述
职位介绍岗位职责:
1. 负责AI大模型相关基础设施建设,涵盖硬件选型、GPU服务器部署、网络架构设计及模型部署等全流程工作。
2. 负责GPU服务器的安装与配置,包括操作系统安装、驱动选择与优化,确保系统稳定性和性能最大化。
3. 负责GPU服务器的组网与网络优化,包括IB/RoCE网络、NVSwitch/NvLink等高速互联技术的部署与调试,确保数据传输效率。
4. 解决模型部署中的系统依赖问题,处理系统组件、驱动模块的兼容性与依赖关系,确保模型顺利部署与运行。
5. 监控与调优GPU服务器及网络硬件,通过性能监控工具识别瓶颈,进行硬件与网络的调优,提升整体计算效率。
6. 在K8S集群中部署AI服务相关容器,负责容器化AI服务的部署与管理,制作并维护基础镜像,确保服务的可扩展性与稳定性。
7. 持续跟踪GPU硬件与网络技术的最新发展,评估并引入新技术,提升基础设施的性能与可靠性。
岗位要求:
1. 专科及以上学历,计算机科学、电子工程、人工智能、自动化或相关专业。
3年以上GPU服务器、高性能计算(HPC)或AI基础设施相关工作经验。有大规模GPU集群部署、管理和调优经验者优先。拥有英伟达专家认证(NVCP)证书者优先、
2. 熟悉主流GPU硬件(如NVIDIA A100、H100等)的选型、安装与配置。精通Linux操作系统(如Ubuntu、CentOS)的安装、配置与优化。熟悉GPU驱动(如CUDA、cuDNN)的安装与版本管理。
3. 熟悉高速网络技术(如InfiniBand、RoCE)的部署与调优。了解NVLink/NVSwitch等GPU互联技术,具备相关组网经验。
4. 熟练使用Docker容器技术,具备容器镜像制作与优化经验。熟悉Kubernetes(K8S)集群的部署与管理,有AI服务容器化经验者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请