职位描述
【岗位职责】
1、日常运维管理:承担大数据平台的日常运维任务,涵盖服务器资源管理、服务状态监控及数据备份与恢复,保障平台持续稳定运行和数据安全。
2、性能监控与优化:实时跟踪大数据平台性能指标,及时定位并解决系统卡顿、数据处理效率低等问题,通过优化平台配置、调整资源分配策略,提升整体运行性能。
3、故障排查与应急响应:负责大数据平台故障的排查与修复,制定应急预案并定期演练,确保故障发生时快速恢复业务;深入分析故障原因,总结经验并提出改进措施,预防同类问题再次发生。
4、技术支持与项目协作:为数据团队和开发团队提供大数据平台相关的技术支持与建议,协助完成数据处理和应用开发工作;参与大数据项目的部署与上线,保障项目顺利实施。
5、技术迭代与团队赋能:关注大数据技术发展趋势,持续学习新技术与工具,优化大数据运维流程和方法;负责新入职运维人员的技术培训与指导,提升团队整体技术能力。
【任职要求】
一、教育背景:本科及以上学历,计算机相关专业。
二、专业经验:5-8 年运维经验,熟悉 Flink、Hadoop、Spark 等主流大数据平台的安装、配置、维护及故障排除者优先。
三、技术能力:
【基础项】
1、 掌握Kubernetes集群的基本工作原理与相关主要插件,能够独立负责Kubernetes集群的管理和维护工作,能够分析处理常见的容器集群故障;
2、 熟悉计算机网络,能够利用常见的网络故障分析工具和方法分析网络故障;
3、 Linux运维经验,熟悉Linux系统、网络、存储、安全、IO的问题排查、性能问题分析方法和工具;
4、 精通至少一门脚本语言,使用Shell、ansible等脚本语言实现配置脚本功能,可以编写自动化运维工具,有Python语言经验更佳;
5、 熟悉Prometheus、Grafana、ELK等监控自动化配置,能够快速实现监控的覆盖和故障告警通知;
6、 能够熟练使用数据库工具(MySQL、Redis、mongodb等)
7、 对系统运维工具(Jekins、Gitlab、docker等)比较熟悉
8、有实际排查系统问题的经验
【加分项】
1、 大数据项目相关经验(大数据集群的搭建部署、数据仓库、数据分析、用到了 hadoop,spark,hive ,yarn,HDFS 这些关键技术)
2、 Java开发经验
3、 工单系统开发经验
4、 熟悉Nginx, Haproxy等接入层技术方案
5、 消息队列(kafka、rabbitMQ)
6、 了解公有云服务体系,熟悉IaaS、PaaS、SaaS等;
7、有对项目(系统、架构、网络调优)做过优化的经验。
【为什么选择我们?】
我们鼓励并坚持自下而上的管理理念,挖掘每一位员工的能力。公司通过系统化的项目实践平台与管理赋能机制,为优秀的员工提供参与项目运作及跨部门协作管理的机会。
我们关心员工的个人成长,相信用人所长才能创造团队的最大价值。我们注重员工的专业学习与沉淀,我们相信慢即是快。为你提供不拘泥于固定的工作内容。你将在各类型项目、研究中快速学习和突破,迅速提升核心能力,从专才到通才,与公司共同发展。
我们推崇并践行坦诚、直接的内部文化。这不仅仅是为了创造舒适、高效的沟通环境,更是为了帮助每个人直面自己的不足,获得真正的成长。
【我们的福利】
工作地点:广州南沙区4号线南横地铁站附近
工作时间:五天8小时制,周末双休,工作与家庭兼顾
工作环境:舒适、优美、高效
工作氛围:灵活、开放、创新、有追求
薪酬福利:根据岗位性质提供具有市场竞争力的薪酬水平
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕