1.计算机科学、软件工程或相关专业,3年以上大数据平台或分布式系统运维经验。
2.精通 Hadoop、Spark、Flink、Kafka、Hive、DolphinScheduler、Presto 等大数据组件的部署、配置与调优。
3.熟悉天翼云、腾讯云、华为云等云产品的使用,包括Kafka、数据库、服务器、大数据组件、监控等。
4.熟悉 Prometheus、Grafana、Zabbix 等主流监控工具的使用与配置。
具备强烈的责任心、良好的问题解决能力和团队协作精神,能承受一定的工作压力。
职责:
1.负责维护和监控大数据集群(如 Hadoop、Spark、Flink、Kafka、HBase 等)的日常运行状态,确保平台服务的高可用性与稳定性。
2.参与大数据平台的部署、扩容、升级、迁移及日常维护工作,具备高效的故障排查和性能优化能力。
3.全面监控平台资源使用情况(CPU/内存/存储/网络),及时响应并处理告警事件,定期输出运维报告与容量规划建议。
4.参与设计和优化运维流程、部署脚本及自动化工具,提升运维效率与系统可靠性。
为数据开发、数据分析等团队提供必要的平台技术支持,并撰写相关技术文档。