职责与任务:
监控生产,主动管理问题,并在最短的时间内解决问题
可能的平均恢复时间(Mean Time to Restore, MTTR),以确保生产环境SLA的稳定性满足。
•关注事件、问题、知识和变更实施过程和程序;
对于应用程序的运行时质量至关重要。
•协助管理、监控、跟踪、优先排序和更新所有it相关服务事件和请求。
调查干系人的功能性和非功能性需求,并确保他们是可实现的和可能实现的。
•在会议、Slack和AWS上及时了解无线汽车的具体指导方针事件等。
确保可用性、容量、安全性和IT方面的质量和持续改进
应用程序的服务连续性。
确保遵守约定的交货时间和绩效目标。
•根据确定的业务需求,推动变更的实施和持续改进。
•管理,监控,跟踪,优先排序和更新所有it相关的服务问题事件
学历及工作经历(年):
计算机科学、计算机工程、数学或相关专业本科以上学历;
2-5年相关工作经验
具有远程信息处理解决方案经验者优先
需要的能力:
技术技能
•Linux系统管理知识,精通管理和支持运行在Linux上的复杂HighAvailability环境
•数据库(Oracle, MongoDB, PostgreSQL), SQL脚本
•具有亚马逊网络服务(或类似云提供商)的经验
•具有监控云技术服务经验(Datadog, Kibana, Grafana等)
•脚本或编程经验(Python等)
•有使用Git或Jenkins的工具和编程语言进行自动化工作的经验
运营和基础设施生产支持经验
良好的ITIL, DevOps和敏捷方法理解
软技能:
较强的问题解决、分析和故障排除能力,并能找到改进的方法
数据的可靠性、效率和质量。
良好的口头和书面沟通能力;有倾听、理解和表达的能力
以适合受众的方式提供信息
•团队合作精神
•能够与同事和客户建立有效的关系