岗位职责
1. 参与容器云平台开发与维护,参与可观测性体系建设,负责指标、日志系统开发与维护,提升采集与查询效率。
2. 保障Kubernetes集群的稳定性,包括容量管理、巡检、性能优化和资源治理;参与容器云内业务负载上线、故障定位与问题解决,推动自动化与可靠性改进。
3. 保障网关组件的稳定性,优化流量策略管理,推进全链路追踪、灰度发布和流量观测能力建设。
4. 参与7x24小时告警响应体系,处理线上突发问题,推进问题复盘,推动根因修复和稳定性提升。
岗位要求
1. 熟练掌握Golang,有容器云相关开发经验。
2. 掌握容器技术和Kubernetes,深入理解K8s核心原理及其生态,有K8s集群运维管理经验。
3. 熟悉可观测性技术栈,包括Prometheus、Alertmanager、Grafana、阿里云SLS、华为云LTS、ELK等;能基于此进行二次开发。
4. 理解服务网关和流量治理,熟悉 APISIX、Envoy 或 Nginx的路由、限流、熔断、鉴权等能力;能基于此进行二次开发。
5. 具备线上问题定位与处理经验,能高效处理K8s与网关故障;能接受 On-call。