1、负责公司开发 / 测试 / 生产环境的运行维护,保障系统稳定高可用。
2、运维 Kubernetes 集群,执行扩缩容、监控、应急与资源管理。
3、维护 Jenkins 自动化流水线,支持快速交付与回滚。
4、管理 Redis / MySQL / RocketMQ / EMQX / Nacos / ELK 等中间件与数据库。
5、建设并优化监控告警体系(Prometheus、Grafana、Loki 等)。
6、处理系统故障、定位性能瓶颈,完善应急预案与故障复盘机制。
7、管理公司网络、本地机房与安全体系(VPN、堡垒机、防火墙等)。
8、与研发、测试团队协作,支撑线上问题排查与性能验证。