职位描述
负责智算中心GPU服务器集群及高性能网络的规划、部署与运维,保障AI/HPC业务稳定高效运行。
核心职责
1. 管理GPU服务器(如NVIDIA DGX/A100/H100)的部署、监控、调优及故障处理。
2. 设计运维高性能网络(InfiniBand/RoCE),优化分布式训练通信性能。
3. 开发自动化工具(Python/Ansible),提升资源监控与运维效率。
4. 制定运维规范,协调内外部团队解决技术问题。
任职要求
• 5年以上GPU集群/数据中心运维经验,熟悉CUDA、InfiniBand、Linux。
• 精通网络协议(RoCE/DPDK)及交换机配置(NVIDIA/Mellanox)。
• 具备K8s、Slurm等调度工具经验者优先。
• 责任心强,能应对高压力运维场景。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕