任职资格
1. 本科及以上学历,计算机相关专业。3年及以上Linux系统运维经验,熟悉主流Linux发行版,熟悉NVIDIA GPU驱动、CUDA生态及常见兼容性问题,具备良好的故障分析能力和问题闭环能力。
2. 有AI训练/推理环境支持经验,有GPU容器化、Kubernetes+GPU运维经验,熟悉至少一种监控体系(如Prometheus+Grafana),具备告警规则设计能力。
3. RHCE或CKA认证者优先。
工作职责
1. 负责GPU服务器操作系统、驱动、CUDA及相关基础软件的部署、维护与升级,管理并行文件系统。
2. 负责GPU算力平台的系统架构运维,包括裸金属、虚拟化或容器化环境,参与作业调度系统(如Kubernetes、Slurm等)的部署、运维与优化。
3. 负责GPU监控体系建设与维护,包括使用率、温度、功耗、显存、错误信息等指标监控,配合定位GPU节点、驱动、内核或系统层面的性能与稳定性问题。