工作内容:
1.负责部署和维护多环境(研发/测试/现场)k8s集群,保障集群长期稳定运行
2.负责k8s集群故障排查、性能调优,定位pod、网络、存储等各种组件故障问题 (熟练使用kubectl debug、kube-apiserver日志分析等调试手段)
3.负责对接客户不同云平台的k8s环境(包括自建的k8s集群), 适配云原生数据库产品的高效部署和稳定运行
4.k8s相关生态的二次开发, 搭建基于k8s的可观测性平台(监控Prometheus系统+日志ELK/Loki系统)、镜像仓库平台以及持久化存储平台等生态系统
任职要求:
1.掌握Kubernetes集群的基本工作原理与相关主要插件,能够独立负责Kubernetes集群的管理和维护工作,能够分析处理常见的容器、网络以及存储方面的故障
2.熟悉容器技术及其理念,熟悉Docker/Kubernetes/Etcd等云原生技术栈的配置及管理,熟悉harbor、helm等容器生态系统
3.至少精通一门脚本语言(shell/python),有Go语言经验更佳
4.熟悉Rancher/Ansible/Kubesphere等容器编排管理平台,有大型分布式系统运维经验的优先
5.熟悉Prometheus、Grafana、ELK等监控(服务健康监控,资源监控,日志监控等)自动化配置,能够快速实现监控的覆盖和故障告警通知
6.具备k8s生产环境使用经验,主导过k8s业务落地或大规模集群运维的优先
7.有较强的动手实践能力、良好的沟通、团队协作精神,具备一定的抗压能力