岗位职责:
1.参与智能运维的整体架构设计与规划,结合公司业务需求和技术发展趋势,制定合理的技术方案,确保平台具备高可用性、高性能和可扩展性;
2. 负责智能运维平台的开发工作,包括数据采集模块、数据分析模块、告警管理模块、自动化运维模块等功能的编码实现,使用主流的开发框架和工具,保证代码质量和开发效率;
3. 与运维团队紧密合作,深入了解运维业务流程,将运维场景和需求转化为具体的功能需求,通过开发实现运维工作的自动化、智能化,提高运维效率,降低运维成本;
4. 负责智能运维的数据处理和分析工作,运用大数据技术和机器学习算法,对运维数据进行挖掘和分析,建立运维数据模型,实现故障预测、根因分析等智能化运维功能;
5. 监控智能运维平台的运行状态,及时发现和解决平台运行过程中出现的问题,保障平台的稳定运行;定期对平台进行性能优化,提升平台的响应速度和处理能力;
6. 参与制定和完善智能运维相关的技术规范、流程和标准,推动团队技术水平的提升;
7. 分享技术经验和最佳实践,帮助团队成员共同成长。
岗位任职要求:
1、本科及以上学历,计算机科学、软件工程、电子信息等相关专业;
2、具备AI 与机器学习技术,能熟练使用 Python/R等语言,掌握机器学习经典算法(如回归分析、聚类、决策树)、深度学习框架(TensorFlow/PyTorch)等知识;
运维场景定制算法:熟悉时序预测(LSTM/Transformer 用于性能趋势分析)、异常检测(Isolation Forest/One-Class SVM 用于故障预警)、强化学习(自动参数调优)等模型,了解相关模型在不同场景下的落地;
3、具备自动化运维能力,熟练使用 Shell/Python 编写各类运维自动化脚本;掌握 Docker/Kubernetes 容器化技术,可熟练使用 Prometheus+Grafana、Zabbix 等工具以及ELK等,构建日志分析和监控体系;
4、具备良好的沟通和理解能力,理解不同运维场景对监控、拨测等方面的需求,能够将应用可用性需求转化为 AIOPS设计需求。