职位详情
Kubernetes / 集群平台开发工程师
2.5-4万·14薪
秦淮数据
上海
5-10年
本科
12-10
工作地址

张江科学之门

职位描述
岗位职责
• 负责构建和维护算力事业部的 Kubernetes 集群平台:包括 GPU 集群、边缘集群、混合云集群。
• 开发 Kubernetes Operator、CRD、调度插件,支持模型部署、推理服务、算力编排。
• 实现自动化:节点接入、健康检查、滚动升级、节点隔离、故障恢复。
• 参与构建 “云–边–端一体化集群”,负责 KubeEdge / Knative / 轻量容器运行时落地。
• 和调度团队、模型团队协作,提供可靠的:
◦ GPU 驱动管理
◦ MIG / 多实例 GPU 配置
◦ 网络优化(RDMA、RoCE)
• 提升平台的可观测性与安全性。

岗位要求
• 精通 Kubernetes 原理,有 CRD/Operator 开发经验(至少一个可交付项目级经验)。
• 熟练使用 Golang。
• 熟悉容器运行时(Docker、Containerd、CRI)。
• 熟悉 Prometheus、Grafana、Loki 等可观测性工具。
• 对分布式系统、服务治理、网络有基础理解。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请