职位描述:
1. 负责私有云平台的7*24小时日常监控、告警处理、告警派单和故障调度工作,确保系统稳定运行;
2. 负责告警执行质量跟踪、分析和总结,优化告警阈值和监控策略,减少误报和漏报;
3. 负责平台缺陷分析与修复,推动系统可靠性提升,保障业务连续性;
4. 负责运维文档编制、更新及流程优化,制定运维管理策略(包括服务流程、SLA管理、安全合规),提升团队工作效率和标准化水平;
5. 规划云平台服务架构与网络架构,主导部署上线、扩容及迁移工作,实施云平台资源全生命周期管理(申请、开通、运行、回收),进行资源容量规划与优化,确保平台安全与数据安全合规;
6. 负责大数据平台(Hadoop、Spark、Flink、Kafka等)及大模型平台的日常运维、性能调优、故障排查,保障高可用性,实施平台安全加固与数据安全策略,持续优化资源利用率;
7. 负责客户沟通与技术支持,提供场景化运维服务方案,培养客户自主运维能力,确保运维服务SLA达标;
8. 协同研发团队推动产品问题闭环,分析客户需求驱动平台迭代优化,参与资源规划与成本控制。
职位要求:
1. 本科及以上学历,计算机及相关专业,3年以上云运维或IT基础设施运维经验;
2. 熟悉主流操作系统(Linux/UNIX/Windows)的基本操作与日常维护;
3. 熟悉网络、存储、服务器、数据库等IT基础设施运维知识,具备扎实的Troubleshooting能力;
4. 工作认真、细心、耐心,具备强烈责任感和抗压能力;
5. 具备良好沟通能力与团队协作精神,能有效跨部门协作;
6. 熟悉主流云平台(如阿里云/腾讯云/私有云)运维操作,有云平台规划、部署、迁移经验;熟悉云平台资源全生命周期管理流程,具备资源容量规划与优化经验;具备平台安全与数据安全实施经验,了解安全合规要求(如等保、GDPR);
7. 熟悉Hadoop、Spark、Flink、Kafka等大数据生态组件运维,有深度调优经验;熟悉Docker、Kubernetes等容器技术,具备大模型平台部署与推理优化经验;熟悉Golang/Python脚本开发,有Ansible/Saltstack自动化工具经验;
8. 有大型IT系统实施或大模型项目落地经验者优先。