职位描述
岗位职责:
1、运维平台监控开发与优化:使用 Go 语言和 Java 进行运维平台监控模块的设计与开发,依据业务需求持续优化监控功能,保证监控数据的精准与实时。
2、告警能力完善:基于对 Prometheus、Thanos 及周边生态组件的熟悉,搭建并完善告警体系,设定合理的告警阈值,实现告警信息的及时准确推送。
3、K8S 集群相关运维:负责 Kubernetes 集群的日常运维工作,涵盖集群部署、扩缩容操作,以及针对集群运行中出现的故障进行排查与修复,维持集群的稳定运作。
4、监控数据处理与分析:深入分析运维平台监控数据,敏锐察觉潜在的系统问题与性能瓶颈,提出切实可行的优化方案。
5、自动化运维脚本开发:编写自动化运维脚本,运用 Go 语言或 Java 实现运维流程的自动化,提升运维效率,降低人为操作失误。
6、跨团队协作:与开发团队、产品团队紧密协作,积极参与项目推进,确保运维工作与整体业务发展目标相契合。
岗位要求:
1、技术能力:熟练掌握 Go 语言和 Java 编程,拥有扎实的编程功底与良好的代码编写规范;熟悉 Kubernetes(K8S)原理与操作,能熟练开展集群管理与故障排查;精通 Prometheus、Thanos 及周边生态组件的使用。
2、学历及工作经验:计算机科学、软件工程等相关专业毕业优先,博士1年及以上,硕士3年及以上,本科5年及以上,大专6年及以上运维技术开发经验,有实际的运维平台监控系统开发、告警体系搭建或 K8S 集群运维项目经验者优先
3、问题解决能力:具备出色的问题分析与解决能力,能够迅速定位并处理运维过程中产生的各类技术难题。
4、团队协作能力:拥有良好的沟通和团队协作能力,能够积极主动地与其他团队成员协同合作,共同达成工作目标。
5、学习能力:对新技术充满热情,具备快速学习能力,能够及时跟进运维领域的最新技术动态并应用于实际工作。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕