岗位职责
1、系统监控与告警:
建立完善的大模型系统监控体系,实时监控系统各项指标(GPU、内存、磁盘、无损网络等),及时发现并解决潜在问题。
配置告警规则,对异常情况进行及时告警,并制定相应的应急预案。
2、 性能优化:
分析系统性能瓶颈,提出优化方案,提升系统运行效率。
参与模型优化,提高模型推理速度和准确率。
3、故障处理与应急响应:
快速定位并解决系统故障,保障系统的稳定运行。
制定完善的应急预案,在突发事件发生时能够迅速响应。
4、运维自动化:
构建自动化运维平台,实现系统部署、配置、监控等工作的自动化。
使用Python与Shell编写GPU集群运维自动化脚本,提高运维效率。
5、容量规划:
根据业务发展需求,进行系统容量规划,确保系统资源充足。
6、技术文档编写:
编写详细的运维文档,方便团队成员了解系统架构和运维流程。
任职要求
1、计算机相关专业本科及以上学历。
2、3年以上大规模云计算平台运维经验,熟悉Shell、Python等脚本语言。
3、熟悉Docker、Kubernetes等容器化技术。
4、 熟悉Prometheus、Grafana等监控告警工具。
5、 了解华为昇思大模型平台,熟悉CANN、vLLM等技术。
6、具备良好的问题分析和解决能力,以及较强的沟通表达能力。
7、有大规模分布式系统运维经验者优先。