职位描述
岗位职责:
1、负责智算平台(含 GPU/CPU 服务器、高速网络设备、存储系统)的7x24小时稳定运行,制定并执行日常巡检、故障排查、性能优化方案。
2、能够基于运维场景需求,独立开发运维工具与即本(Python/Go),实现监控告警、配置管理、故障自愈等场景的自动化、平台化。
3、承接各个算法项目需求,协调各方资源,确保项目按时按质完成;
4、负责制定运维工作规范和用户服务流程。
任职资格:
1、本科及以上学历,3年以上工作经验,熟悉主流公有云/私有云平台架构及相关组件特性,精通ansible、shell、python、go中一种或几种脚本语言;
2、超算运维经验:具备高性能计算(HPC)集群运维经验,熟悉超算作业流程(编译、调试、并行优化),精通 SLURM/K8s 调度系统配置与调优,智算集群技术栈:精通GPU/NPU服务器硬件运维,熟悉 NVLinK/CUDA生态;掌握 RDMA 网络(如 Infiniband/RoCE)配置与故障排查。
3、具备GPU集群管理经验(如NVIDIA DGX/SuperPOD),熟悉CUDA、NVLink、RDMA网络;
4、熟练使用过主流的云产品(阿里云、华为云、腾讯云、浪潮云、天翼云等),熟悉SDN虚拟网络、分布式云存储、传统SAN存储等相关技术;
5、熟悉容器化技术,如docker/k8s等,有CCE、CCR、Helm、Prometheus等容器类产品运维经验者更佳;
6、熟悉主流模型deepseekR1、llama3、千问等模型产品的使用;
7、了解算力中心或数据中心机房的基础设施,掌握服务器和IT设备基础设施及强弱电相关知识;
8、具备良好的沟通技巧和团队合作能力,能够有效地传达和解决问题,协调不同部门之间的需求和资源;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕