「南阳卧龙区 AI运维工程师招聘」_2025年牧原股份招聘-智联招聘

职位详情

AI运维工程师

1.3-2.4万

牧原股份

南阳

3-5年

本科

08-21

工作地址

河南省南阳市卧龙区龙升工业园牧原集团

职位描述

岗位职责：
1、负责智算平台(含 GPU/CPU 服务器、高速网络设备、存储系统)的7x24小时稳定运行，制定并执行日常巡检、故障排查、性能优化方案。
2、能够基于运维场景需求，独立开发运维工具与即本(Python/Go)，实现监控告警、配置管理、故障自愈等场景的自动化、平台化。
3、承接各个算法项目需求，协调各方资源，确保项目按时按质完成；
4、负责制定运维工作规范和用户服务流程。

任职资格：
1、本科及以上学历，3年以上工作经验，熟悉主流公有云/私有云平台架构及相关组件特性，精通ansible、shell、python、go中一种或几种脚本语言；
2、超算运维经验:具备高性能计算(HPC)集群运维经验，熟悉超算作业流程(编译、调试、并行优化)，精通 SLURM/K8s 调度系统配置与调优,智算集群技术栈:精通GPU/NPU服务器硬件运维，熟悉 NVLinK/CUDA生态;掌握 RDMA 网络(如 Infiniband/RoCE)配置与故障排查。
3、具备GPU集群管理经验（如NVIDIA DGX/SuperPOD），熟悉CUDA、NVLink、RDMA网络；
4、熟练使用过主流的云产品（阿里云、华为云、腾讯云、浪潮云、天翼云等），熟悉SDN虚拟网络、分布式云存储、传统SAN存储等相关技术；
5、熟悉容器化技术，如docker/k8s等，有CCE、CCR、Helm、Prometheus等容器类产品运维经验者更佳；
6、熟悉主流模型deepseekR1、llama3、千问等模型产品的使用;
7、了解算力中心或数据中心机房的基础设施，掌握服务器和IT设备基础设施及强弱电相关知识；
8、具备良好的沟通技巧和团队合作能力，能够有效地传达和解决问题，协调不同部门之间的需求和资源；

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕