职位描述
* 建立GPU故障案例库与自动化复盘工具,将典型问题转化为检测规则。
* 开发动态运维手册生成工具,关联监控告警与修复SOP。
任职要求:
* 熟悉Linux系统、网络架构及分布式系统原理,精通Kubernetes/Ansible等运维工具链。
* 具备GPU集群运维经验,熟悉NVIDIA/国产GPU硬件架构及监控方法(如DCGM、Prometheus+Grafana)。
* 至少掌握C++/Python/Go一门语言,能独立开发运维工具,有大规模系统性能调优经验。
* 深入理解SRE方法论,熟悉容量规划、混沌工程、SLO设计等实践。
软性能力
* 对复杂问题有系统性拆解能力,能在高压下快速定位并解决故障。
* 具备技术文档撰写与跨团队协作能力,推动运维标准落地。
* 保持对新技术的学习能力
加分项
* 熟悉前端技术
* 熟悉国产GPU技术栈及CUDA开发。
* 有万卡级智算中心或超算中心运维经验,参与过AI大模型训练任务支持。
* 熟悉MLPerf等AI基准测试工具,或参与过开源运维项目。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕