系统运维工程师
1.1-1.4万
北京 本科
亦庄
熟悉智算集群基础设施架构及建设全流程;
熟练掌握linux操作系统原理和常用命令,熟悉Centos、Ubuntu等主流Linux发行版;
了解Python 或 shell脚本;
了解算力服务器硬件架构,对机头拓扑,配置选型有深入研究;
具备集群自动化部署,GPU芯片原生驱动安装及调测,熟练使用cuda nccl fieldiag gpuburn等Nvidia官方工具;
熟悉zabbix、Prometheus等监控工具;
了解算力集群运维体系,可制定运维标准,带领运维团队保障sla;
具备GPU环境故障排查和解决能力;
了解TCP/IP,能进行基本的网络配置和故障排查;
熟悉Raid技术,常用存储设备的配置和管理;
了解Docker、K8S等容器技术;
任职要求:
1、教育背景:本科及以上学历,计算机相关专业;
2、工作经验:3年以上计算机基础设施部署、运维工作经验,有Nvidia GPU 集群经验优先;
3、熟悉AI算力、算法技术,对云计算平台、分布式系统、容器化技术有深入了解;
4、具备良好的沟通能力和团队协作能力,能够跨团队进行有效沟通;
5、具备良好的学习能力,关注算力技术和系统架构的最新发展动态,不断学习新技术。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕