岗位要求
1、计算机相关专业本科及以上学历,5年以上运维工作经验,其中至少3年专职Kubernetes运维管理经验,维护过较大规模生产k8s集群。
2、精通Linux操作系统维护、内核性能调优,熟练使用Python/Shell/Go等至少一种语言,可开发自动化运维脚本及工具。
3、具备良好的网络基础,熟悉 TCP/IP、DNS、HTTP 等协议,熟悉常见的网络问题分析和处理,具备很强技术敏感度和故障排查经验。
4、深入理解 Kubernetes 的核心概念(如 Pod、Deployment、Service、Ingress、StatefulSet、DaemonSet 等)和工作原理。熟练使用 kubectl、helm 等命令行工具,具备编写和调试YAML/JSON 资源清单文件的能力。熟练掌握Docker 容器技术,熟悉Dockerfile 最佳实践
5、熟练掌握至少一种主流的 CNI 网络插件、CSI 存储方案和Ingress Controller。
6、熟练掌握 Prometheus + Grafana 监控栈的搭建、配置和使用,熟悉ELK日志系统管理和使用。
7、工作细致、善于思考,对前沿技术有强烈的钻研精神;强烈的责任心、良好的沟通和协调能力、极强的业务推动能力、勇于接受挑战;具备较强的文档编写能力。
8、愿意接受7*24小时根据监控系统或人工报障信息,随时处理线上系统故障,保障系统稳定运行。
岗位职责
1、负责公司生产、灰度、测试、开发环境的 Kubernetes 集群的规划、部署、升级、扩容、监控与日常维护,保障集群的高可用性和稳定性。深入排查并解决集群节点、网络、存储、负载均衡等组件的故障和性能瓶颈。管理和维护集群的etcd、CNI网络插件、CSI存储插件、Ingress、coredns、镜像仓库等核心组件。
2、构建和完善集群及应用的全链路监控体系,使用 Prometheus、Grafana 等工具对集群资源、应用性能及业务指标进行监控,配置和管理合理的告警规则,确保能及时响应并处理各类故障。
3、为开发团队提供资源规划和性能调优的建议与支持。