职位详情
AI运维工程师
1-1.5万
甘肃省华本力合人工智能科技有限公司
成都
3-5年
硕士
03-21
工作地址

天府软件园-G5楼2002室

职位描述
一、职位描述
致力于打造高性能AI计算平台,招募一名兼具AI基础设施运维能力与全栈开发潜力的工程师。您将深度参与AI算力集群管理、远程运维体系构建及研发协作全流程,推动AI技术的高效落地。我们提供给您参与AI基础设施从0到1建设的核心机会,以及与顶尖算法团队协作,深入AI工业化落地场景。
二、岗位职责
1. 负责英伟达GPU集群及华为昇腾910系列AI服务器的运维管理,包括硬件监控、驱动适配、性能调优及故障诊断;
2. 搭建基于混合云架构的远程运维平台,实现跨地域AI算力资源的统一调度与自动化运维;
3. 配合研发团队完成AI训练/推理系统的开发测试,设计CI/CD流水线,优化模型部署效率;
4. 构建运维监控链,构建从硬件层到应用层的全栈可观测性体系;
5. 研究AI算力集群的能效优化方案,制定服务器资源弹性伸缩策略。
三、任职要求
(一)必备条件
1. 硕士及以上学历,计算机/电子工程/数学等相关专业;
2. 3年以上Linux系统运维/DevOps经验,精通Shell/Python/Go至少一门语言;
3. 熟悉Docker/K8s生态,有大规模集群管理经验;
4. 掌握监控工具链(Prometheus/Grafana/ELK等),具备全链路问题定位能力;
5. 了解主流AI框架(TensorFlow/PyTorch)及计算资源管理工具(Kubeflow/Slurm);
6. 对网络、存储、分布式系统有深入理解,能独立设计高可用架构。
(二)加分项
1. 有AI大模型部署优化建设经验;
2. 熟悉云计算平台(AWS/Azure/阿里云)AI服务架构;
3. 持有K8s/CKA/Ceph等认证证书;
4. 发表过运维/系统优化相关技术文章或开源项目贡献者。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请