1.5-3万·14薪
金域国际中心A1806
岗位职责:
1. 熟练掌握 Linux 操作系统原理和常用命令,熟悉 CentOS、Ubuntu 等主流操作系统
2. 负责GPU、CPU、异构计算设备的日常运维、软硬件排障
3. 了解NCCL-TEST、MPIRUN、slurm,进行多集群NCCL-TEST测试、调优等
4. 参与ROCE、InfiniBand智算项目,包括技术方案编写、技术支撑、项目实施管理及后期的运维服务
5. 对所负责的项目组提供技术支持,协助解决项目中的技术问题
6. 负责项目交付后的培训指导工作
7. 日常维护与数据备份,负责客户线上问题响应处理,在出现异常情况时及时报警并跟进解决
任职要求:
1. 熟练掌握 Linux 操作系统原理和常用命令,熟悉 CentOS、Ubuntu 等主流操作系统
2. 熟悉GPU、机器学习技术原理,有GPU硬件、驱动、Cuda、Mellanox(sharp)网络等运维和调优经验
3. ROCE V2针对服务端进行调测,针对速率、丢包进行优化等
4. 熟悉实施文档、部署文档的编制工作
5. 熟悉Slurm/mpirun、nccl-test
6. 熟练使用Python、Shell等语言,具备开发自动化运维系统的能力
7. 熟练使用自动化运维工具,ansible、saltstack等
8. 掌握主流监控系统(如zabbix、grafana、prometheus、夜莺等)
9. 掌握Linux系统管理、网络基础知识;至少熟练使用一种自动化运维工具(如Ansible);熟悉容器技术(例如Docker、Kubernetes);掌握监控工具(例如Prometheus、Zabbix)的使用
10. 项目交付过程中的部署、调试、维护等技术支持工作,包括对现场问题进行跟踪维护,输出问题解决方案
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕