「深圳南山区大模型算力运维工程师招聘」_2025年广州南天电脑系统有限公司招聘-智联招聘

职位详情

大模型算力运维工程师

1-1.5万

广州南天电脑系统有限公司

深圳

3-5年

本科

08-01

工作地址

招行信息研发大厦

职位描述

岗位职责
1、系统监控与告警：
建立完善的大模型系统监控体系，实时监控系统各项指标（GPU、内存、磁盘、无损网络等），及时发现并解决潜在问题。
配置告警规则，对异常情况进行及时告警，并制定相应的应急预案。
2、性能优化：
分析系统性能瓶颈，提出优化方案，提升系统运行效率。
参与模型优化，提高模型推理速度和准确率。
3、故障处理与应急响应：
快速定位并解决系统故障，保障系统的稳定运行。
制定完善的应急预案，在突发事件发生时能够迅速响应。
4、运维自动化：
构建自动化运维平台，实现系统部署、配置、监控等工作的自动化。
使用Python与Shell编写GPU集群运维自动化脚本，提高运维效率。
5、容量规划：
根据业务发展需求，进行系统容量规划，确保系统资源充足。
6、技术文档编写：
编写详细的运维文档，方便团队成员了解系统架构和运维流程。

任职要求
1、计算机相关专业本科及以上学历。
2、3年以上大规模云计算平台运维经验，熟悉Shell、Python等脚本语言。
3、熟悉Docker、Kubernetes等容器化技术。
4、熟悉Prometheus、Grafana等监控告警工具。
5、了解华为昇思大模型平台，熟悉CANN、vLLM等技术。
6、具备良好的问题分析和解决能力，以及较强的沟通表达能力。
7、有大规模分布式系统运维经验者优先。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕