职位详情
人工智能GPU运维工程师
1.1-1.8万·14薪
河北起聘信息科技有限责任公司
北京
1年以下
本科
09-22
工作地址

北京市-海淀区-西北旺东路10号院东区19号

职位描述
人工智能GPU运维工程师
岗位职责:
1. 负责大规模高性能GPU集群的计算、网络和存储系统的稳定运行,能监控、识别并解决各类集群线上问题;
2. 负责多节点 GPU 集群性能测试与评估,熟练掌握HPL/HPCG/l-test等集群性能评测工具进行性能评估并定位问题;
3. 负责监控系统的建设和运维,及时发现系统问题(尤其是 GPU 故障)并进行解决;
4. 部署交付IDC大规模GPU集群,提供运维能力和体系,支持云平台团队开发并对平台客户提供相关技术支持;
5. 接洽和协调IDC服务器上机事宜,协调网络、存储等规划和实施等。
任职要求:
1. 大学本科及以上学历,计算机相关专业;
2. 熟悉Linux操作系统,熟悉常见的基础服务搭建、配置、调优和排障;掌握 Linux Shell、Python、Go等一种或多种编程语言;
3. 熟悉kubernetes生态,掌握常用业务监控方式,熟练使用 prometheus 监控工具;
4. 具备阿里云、华为、AWS、火山云等任一云厂商的运维经验;
5. 具备火山云vestack平台使用经验的优先;
6. 善于团队协作与独立工作,具备良好的沟通协调能力、做事追求极致,在提供改进和落地的同时,提供可量化的手段和指标,能承担7*24小时按需到岗等要求;

薪资 15-25 14薪,经验不限,本科,工作地址 北京海淀区学院国际大厦

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请