职位描述
**岗位职责:**
1. **系统部署与维护**
- 负责Hadoop、Spark、Flink、Kafka等大数据平台的搭建、部署、升级及日常运维,保障集群高可用性。
- 管理分布式存储系统(如HDFS、HBase、ClickHouse等),优化数据存储与读写性能。
2. **监控与故障处理**
- 设计并实施大数据集群监控体系(如Prometheus、Grafana、Zabbix),实时预警系统异常。
- 快速定位并解决集群故障、性能瓶颈及数据一致性问题,保障SLA达标。
3. **性能调优与资源管理**
- 分析集群资源利用率(CPU/内存/磁盘/网络),优化YARN、K8s等资源调度策略。
- 针对计算任务(如MapReduce、Spark作业)进行参数调优,提升数据处理效率。
4. **自动化与DevOps**
- 开发运维脚本(Python/Shell)或工具,实现部署、监控、备份等流程自动化。
- 推动CI/CD在数据流水线中的应用,与开发团队协作提升交付效率。
5. **安全与合规**
- 实施集群安全策略,包括权限管理(Kerberos/Ranger)、数据加密、审计日志等。
- 配合完成数据备份、容灾方案及合规性检查(如GDPR)。
6. **文档与协作**
- 编写运维手册、故障处理SOP及技术方案文档。
- 与数据开发、算法团队协作,支持业务需求并优化架构。
---
**任职要求:**
1. **技术能力**
- 精通Linux系统及网络原理,熟悉JVM调优、容器化技术(Docker/K8s)。
- 深入理解Hadoop生态组件(HDFS/YARN/Hive等),熟悉至少一种主流大数据计算引擎(Spark/Flink)。
- 熟练使用Ansible/Chef/Puppet等自动化运维工具,具备脚本开发能力(Python/Shell/Go)。
- 熟悉云平台(AWS/Azure/阿里云)大数据服务(EMR、MaxCompute)者优先。
2. **经验要求**
- 3年以上大数据平台运维经验,主导过500+节点集群运维或性能优化项目。
- 有PB级数据规模、高并发实时处理场景经验者优先。
3. **软技能**
- 强烈的责任心和抗压能力,能独立处理线上紧急故障。
- 良好的沟通能力,能与跨部门团队高效协作。
- 熟悉数据治理、元数据管理(Apache Atlas)或数据血缘工具。
- 有大数据平台迁移(如Hadoop上云)或混合云架构经验。
- 了解机器学习平台(如MLflow/Kubeflow)运维
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕