职位详情
算力运维工程师
1.4-2万
北京乐讯科技
北京
3-5年
本科
03-25
工作地址

北京市昌平区回龙观镇龙域北街金域国际中心A座1806

职位描述
岗位职责:
1、熟练掌握 Linux 操作系统原理和常用命令,熟悉 CentOS、Ubuntu 等主流 Linux 发行版。
2、熟悉 RAID 技术原理和配置方法,了解常用存储设备(如磁盘阵列、SAN、NAS)的配置和管理。
3、了解 TCP/IP 协议、路由交换、防火墙等网络基础知识,能够进行基本的网络配置和故障排除。
4、了解 NVIDIA 和国产 GPU 架构,能够部署 GPU 环境,包括驱动安装、CUDA 配置。
5、具备 GPU 环境故障排查和解决能力,例如:性能瓶颈分析、GPU 资源监控、常见错误处理等。
6、了解Mellanox、ROCE等智算集群,能够部署Mellanox环境、包括驱动安装、IB设置,可以根据故障进行集群诊断。
7、了解NCCL-TEST、MPIRUN,可以针对智算平台进行多集群NCCL-TEST测试
8、接触过服务器硬件,了解硬件组成和基本维护方法。
0、了解 Docker、Kubernetes 等容器技术。
任职要求:
1、教育背景:本科及以上学历。
2、工作经验:需要有至少3年的相关行业工作经验。(人工智能行业经验优先)。
3、具备良好的 Shell 脚本编写能力者优先。
4、熟悉 Ansible、SaltStack 等自动化运维工具者优先。
5、精通戴尔、浪潮、曙光等厂商服务器产品,熟悉服务器、存储等设备的配置工作。
6、具有相关认证证书者有限。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请