职位详情
DevOps工程师(004989)
面议
中国移动
西安
5-10年
本科
08-20
工作地址

西安国寿金融中心

职位描述
任职要求
1. 负责 AI 基础设施(GPU/NPU 等异构硬件)的部署、运维与性能优化,制定硬件资源管理规范,保障大规模 AI 集群稳定运行;
2. 主导 Kubernetes 集群在 AI 场景的搭建、升级与日常运维,优化集群调度策略,适配 GPU/NPU 等异构计算资源的高效利用;
3. 基于 Golang 开发自动化运维工具、集群管理组件或自定义控制器(Operator),实现硬件资源监控、集群状态巡检、故障自愈等功能;
4. 设计并落地容器化部署方案,优化 AI 模型训练 / 推理任务的容器调度策略,解决 GPU 显存隔离、算力分配、异构资源亲和性等问题;
5. 构建硬件资源监控与告警体系,整合 Prometheus、Grafana 等工具,实现 GPU/NPU 利用率、温度、功耗等指标的实时监控与异常告警;
6. 与算法团队协作,解决模型训练过程中的硬件资源瓶颈,提供 GPU/NPU 性能调优建议,提升算力资源利用率;
7. 参与制定 DevOps 流程规范,推动 CI/CD 流水线在 AI 模型部署场景的落地,实现模型训练、推理服务的自动化发布;
8. 跟踪异构计算、云原生领域技术动态,引入新技术(如 GPU 虚拟化、NPU 容器化调度)提升基础设施效率。

任职要求
1. 计算机相关专业本科及以上学历,5 年以上 DevOps 工程师经验,至少 1 年以上大规模 GPU/NPU 集群运维经验;
2. 精通 NVIDIA GPU(A100/H100 等)、华为昇腾(Ascend 910/310)、寒武纪等异构硬件的特性与管理方式,熟悉硬件驱动、固件升级及故障排查;
3. 深入理解 Kubernetes 核心原理,精通集群部署、资源调度、网络插件(Calico/Flannel)、存储卷管理,有自定义调度器或 Operator 开发经验者优先
4. 具备扎实的 Golang 开发能力,能独立开发运维工具、API 服务或 K8s 周边组件,熟悉 Go Modules、goroutine 等特性;
5. 熟悉容器化技术(Docker)及云原生生态工具(Helm、Istio、Prometheus 等),有 AI 平台(如 Kubeflow、Volcano)部署经验者优先;
6. 了解 GPU 虚拟化技术(vGPU/MIG)、RDMA 网络配置,具备 AI 训练任务性能调优实战经验;
7. 具备良好的问题分析能力,能快速定位并解决 K8s 集群故障、硬件资源冲突等复杂问题;
8. 有 AI 模型训推平台、高性能计算集群运维经验者优先,具备良好的跨团队沟通与协作能力。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请