岗位职责
1.负责云平台运营运维体系的整体规划、建设与持续优化,建立涵盖云资源申请、审批、分配、使用监控到回收的全生命周期闭环管理流程,提升资源利用率与管理规范性。
2. 设计并开发自动化运维工具与平台功能模块,实现部署、配置、巡检、故障处理等场景的自动化,提升系统交付效率与稳定性,降低运维人力成本。
3.构建覆盖基础设施、中间件、应用服务的全方位监控与智能告警体系,集成指标采集、日志分析、链路追踪等能力,及时发现并响应潜在风险,保障云平台高可用与业务连续性。
4. 深入调研内部用户需求与典型使用场景,收集反馈并推动产品功能优化,持续提升平台易用性、用户体验与用户满意度。
5. 与研发、安全、网络、业务等部门高效协同,参与云平台产品的需求评审、方案设计与迭代优化,推动技术方案落地与规模化应用。
任职要求:
1.本科及以上学历,计算机、软件工程、网络工程或相关专业,3年以上云计算、运维开发或平台运营相关工作经验。
2.熟悉主流公有云/私有云平台(如阿里云、AWS、OpenStack、Kubernetes等)架构与核心服务,具备云资源管理与运营实践经验。
3.熟练掌握至少一种脚本语言(Python/Shell/Go等),具备自动化工具开发能力,熟悉CI/CD、IaC(如Terraform、Ansible)者优先。
4. 熟悉 Prometheus、Grafana、ELK、Zabbix 等监控与日志分析工具,具备构建大型系统监控告警体系的经验。
5. 具备良好的逻辑思维与问题分析能力,对流程优化与用户体验有敏锐洞察力。
6. 具备出色的沟通协调能力与跨团队协作意识,能够在复杂环境中推动项目落地。
7. 有ITSM工单系统(如Jira、ServiceNow)、成本管理(FinOps)或云管平台(CMP)建设经验者优先。
8. 熟悉DevOps理念与实践,参与过云原生平台建设者优先。