职位描述
岗位职责
1. 负责公司系统运维保障,深入理解业务,持续提升服务高可用性
2. 建设并持续改进监控报警系统,提升应急响应机制,缩短故障恢复时间
3. 洞察影响系统稳定运行的风险点,落地改进措施并推进
4. 负责服务的集成、部署、发布工作,保障稳定高效的部署与运行
5. 积累运维最佳实践,为业务架构设计提供指导意见,持续输出运维技术文档
6. 主导AI智能运维平台建设,实现运维自动化和智能化
任职要求
基础技能
* 本科以上学历,计算机、软件工程等相关专业,3年以上IT系统实施与运维经验
* 熟练掌握Docker、K8s等容器技术,具备生产环境运维经验
* 掌握Linux/Unix系统、网络及硬件知识,具备很强的Troubleshooting能力
* 掌握Shell或Python等脚本语言,能够使用Ansible、Saltstack等自动化部署工具
* 熟练掌握Nagios、Zabbix、Prometheus等监控工具,具有自动化运维工具使用经验
* 熟悉常见数据库(MySQL、PostgreSQL、国产数据库)管理与运维
* 熟悉网络原理及设备配置,具备网络设备(路由器、交换机、防火墙)管理经验
AI技能要求(核心竞争力)
AIOps实践能力
* 智能监控告警:实现基于机器学习的异常检测、告警降噪、故障预测
* 智能调优:掌握基于AI的数据库参数自动调优、索引推荐技术
* 根因分析:利用AI技术进行故障根因自动分析和关联分析
* 容量预测:基于时间序列模型进行容量规划和资源预测
AI+数据库融合技术
* 熟悉向量数据库(pgvector/Milvus)架构、部署与性能优化
* 深入理解RAG(检索增强生成)架构,能够搭建知识库检索系统
* 熟悉MCP(Model Context Protocol)协议,能够实现AI与数据库的无缝对接
* 掌握Embedding模型的选型、部署与优化(OpenAI/文心一言/通义千问等)
AI开发与应用
* 熟悉机器学习基本算法(分类、回归、聚类、时间序列预测)
* 熟悉Python AI框架(TensorFlow/PyTorch/Scikit-learn)
* 熟悉LangChain/LlamaIndex等AI应用开发框架
* 能够开发AI Agent实现运维任务的智能化执行
* 能够设计并实现自然语言到系统指令的转换
AI运维平台建设
* 能够主导设计和实施AIOps平台架构
* 掌握运维数据采集、清洗、特征工程等数据处理流程
* 能够训练和优化运维场景下的AI模型
* 了解大语言模型的微调和Prompt Engineering技术
优先条件
* 有AIOps平台建设或AI项目主导经验
* 有大模型应用开发或模型微调经验
* 参与过AI+数据库融合项目实施
* 有开源社区贡献或技术博客,发表过AI运维相关文章
* 持有相关认证证书(RHCE/CKA/数据库认证/信息安全证书/AI相关证书)
* 参与过护网行动、安全测评项目
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕