「上海浦东新区 SRE高级开发工程师k8s运维招聘」_2026年文思海辉金融招聘-智联招聘

职位详情

SRE高级开发工程师k8s运维

1.6-2万

中电金信软件有限公司

上海

3-5年

大专

02-28

工作地址

辰金科技园-地上停车场1

职位描述

* 建立GPU故障案例库与自动化复盘工具，将典型问题转化为检测规则。
* 开发动态运维手册生成工具，关联监控告警与修复SOP。
任职要求:
* 熟悉Linux系统、网络架构及分布式系统原理，精通Kubernetes/Ansible等运维工具链。
* 具备GPU集群运维经验，熟悉NVIDIA/国产GPU硬件架构及监控方法（如DCGM、Prometheus+Grafana）。
* 至少掌握C++/Python/Go一门语言，能独立开发运维工具，有大规模系统性能调优经验。
* 深入理解SRE方法论，熟悉容量规划、混沌工程、SLO设计等实践。
软性能力
* 对复杂问题有系统性拆解能力，能在高压下快速定位并解决故障。
* 具备技术文档撰写与跨团队协作能力，推动运维标准落地。
* 保持对新技术的学习能力
加分项
* 熟悉前端技术
* 熟悉国产GPU技术栈及CUDA开发。
* 有万卡级智算中心或超算中心运维经验，参与过AI大模型训练任务支持。
* 熟悉MLPerf等AI基准测试工具，或参与过开源运维项目。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕