1.系统部署与维护
负责Hadoop、spark、flink、kafka等大数据平台的搭建、部署、升级及日常运维,保障集群高可用性。管理分布式存储系统(如HDFS、Hbase、clickhouse等),优化数据存储与读写性能。
2.监控与故障处理
设计并实施大数据集群监控体系(如prometheus、grafana、zabbix),实时预警系统异常。快速定位并解决集群故障、性能瓶颈及数据一致性问题,保障SLA达标。
3.性能调优及资源管理
分析集群资源利用率(CPU/内存/磁盘/网络),优化YARN、k8s等资源调度策略。针对计算任务(如mapreduce、spark作业)进行参数调优,提升数据处理效率。
4.自动化与DevOps
开发运维脚本(Python/shell)或工具,实现部署、监控、备份等流程自动化。推动CI/CD在数据流水线中的应用,与开发团队写作提升交付效率。
5.安全与合规
实施集群安全策略,包括权限管理(Kerberos/Ranger)、数据加密、审计日志等。配合完成数据备份,容灾方案及合规性检查(如GDPR)。
任职要求:
1、精通Linux系统及网络原理,数据JVM调优、容器化技术(Docker/k8s)。
2、深入理解Hadoop组件,熟悉至少一种主流大数据计算引擎(Spark/Flink).
3、ansible/chef/puppet等自动化运维工具,具备脚本开发能力(Python/shell/go)。
4、熟悉云平台(AWS/Azure/阿里云)大数据服务(EMR、maxcompute)者优先。
5、3年以上大数据平台运维经验,主导过500+节点集群运维或性能优化项目。有PB级数据规模、高并发实时处理场景经验者优先。
6、强烈的责任心和抗压能力,能独立处理线上紧急故障。良好的沟通能力,能与跨部门团队高效协作.
加分项:
数据数据治理、元数据管理(Apache Atlas)或数据血缘工具。
有大数据平台迁移或混合云架构经验。了解机器学习平台(如MLflow/Kubeflow)运维。