职位详情
K8S平台运维【上海】
1.5-2.2万·13薪
上海艾策通讯科技股份有限公司
上海
5-10年
本科
12-10
工作地址

华鑫中心

职位描述
岗位职责
1、负责智算平台及核心云原生基础设施的稳定性建设与运维管理,包括 Kubernetes 集群、GPU 算力节点、存储系统(Ceph、GPFS 等)及网络组件的持续运行保障;
2、设计、落地并维护 高可用、高伸缩性、自动化 的服务运维体系,确保核心平台 SLA;
3、深入参与平台的 可观测性体系建设(Prometheus、Grafana、Loki、ELK、Tracing),建立事件响应机制、容量规划与预警体系;
4、主导 K8s 资源管理与调度优化,包括 GPU/IB/NUMA 等异构资源管理策略;
5、支撑 AI/大模型业务场景的 算力编排与任务运行优化(Ray、Kubeflow、Volcano 等相关组件);
6、推动 DevOps、GitOps、Infra-as-Code 落地,提升平台自动化与运维工程效率;
7、参与运维工具链与平台化能力建设(自研或基于 ArgoCD / Jenkins / Terraform / Ansible 等)。
任职要求
1、计算机、软件工程或相关专业本科及以上学历,5年以上 SRE / 运维 / 云平台经验;
2、深入理解 Kubernetes 架构 与控制面机制,熟悉 CRD、Controller、Scheduler 原理,有大规模集群(>100 节点)运维经验;
3、精通主流云原生技术栈:Helm、Containerd/Docker、Harbor、 CertManager、Prometheus、VictorMetrics、Grafana、Fluentd/FluentBit、Istio 等;
4、熟悉 GPU 算力平台(如 NVIDIA Operator、Device Plugin、NCCL、RDMA、IB 网络)和 AI 训练任务的资源调度优化;
5、具备优秀的 自动化运维与脚本开发能力(Python / Go / Shell 至少精通一种);
6、有构建 CI/CD、监控报警、应急响应体系 的经验,具备较强的系统调优与故障排查能力;
7、具备良好的跨团队协作与沟通能力,能够独立主导复杂系统的可靠性改进项目。
加分项(Nice to Have)
1、有自研或二次开发 Kubernetes Controller / Operator 经验;
2、熟悉 大模型训练平台(如 Ray、DLTS、DeepSpeed、Megatron 等) 的运维体系;
3、有 云平台或智算中心 的架构设计或建设经验;
4、了解基础设施安全体系(IAM、网络安全、容器安全)。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请