岗位职责:
1、负责开发IT统一运维平台、监控报警体系和Devops自动化平台的构建、设计、开发、部署、升级与维护,包括不限于监控告警系统、日志系统、容量管理、CMDB资源管理、配置中心、调度系统、流程系统、IM服务平台等系统开发
2、运维自动化工具开发:基于SRE运维工作,理解需求背景和业务发展,开发自动化工具和平台提升效率;
3、SRE高可用保障:参与故障应急、稳定性优化等工作,并设计系统助力运维能力提升;
4、负责IT成本管理,稳定性建设,日志分析、挖掘问题隐患、配合制作相关预案,项目跟进
5、负责日常应用运维oncall,SRE,包括配置、优化、备份、故障处理等工作
岗位要求:
1、2年以上的 Python 3.x 、Golang 实际开发经验;了解Django,Flask, FastApi, Gin ,微服务更好
2、有一定前端开发经验优先,对vue,react等主流前端框架有一定的理解,熟悉一种框架有不错的经验和理解能力,
3、拥有具备规模的运维自动化平台、监控平台开发或管理后台类系统经验;
4、了解常用中间件:数据库、消息队列、服务发现等。有一定开发运维脚本或工具,来提高运维部署的效率。熟练掌握Python,shell编程
5、了解一些自动化工具 例如:saltstack,ansible,Nornir,可以熟练开发ansible api或saltstack api
6、具有设计、性能优化经验,良好的编码规范,熟悉常用算法和数据结构,熟悉网络编程、多线程编程技术
7、吃苦耐劳,责任心强,啃专研,逻辑思维清晰,具备良好的沟通能力、对新技术有求知欲;
8、加分项:对容器、k8s、混合云,监控告警等技术有了解和使用经验,有数据可视化,大模型工具开发相关经验,熟悉ELK技术栈,了解1-2种大数据和数据分析挖掘框架