1.2-1.8万
湘潭市-雨湖区-白石西路78号闪充公司
岗位职责:
•
负责公司级大数据平台的数据仓库架构设计与开发,包括数据采集、清洗、建模、存储、计算等环节;
•参与构建实时/离线数据处理流水线,支撑业务数据报表、数据服务、AI建模等场景;
•使用 Flink / Spark / Hive / Kafka / HDFS / HBase 等组件完成数据处理任务;
•负责 ETL 任务的开发、调度与优化,保障数据质量与任务稳定性;
•推动数据治理体系建设,包括元数据管理、数据血缘、数据质量监控等;
•参与线上任务的故障排查、性能调优与容量规划,具备实际事故处理经验;
•持续优化大数据平台的可用性、扩展性与稳定性。
要求实际大数据开发经验3年以上:
核心技能:
•熟悉大数据生态体系,掌握以下组件的至少 3 项:
•数据仓库:Hive、HDFS、HBase、Iceberg、Hudi、Delta Lake
•离线计算:MapReduce、Spark
•实时计算:Flink、Storm、Spark Streaming
•消息队列:Kafka、RocketMQ、Pulsar
•任务调度:Airflow、DolphinScheduler、XXL-JOB
•数据治理:Atlas、DataHub、DQC、OpenLooKeng 等
•熟悉数据仓库建模理论,掌握星型模型、雪花模型、缓慢变化维度等设计方法;
•熟练编写 SQL,具备 HiveQL、Spark SQL、ClickHouse SQL 的实际开发经验;
•有良好的数据敏感度,具备数据质量监控、异常分析、任务调优经验;
•熟悉 Linux 操作系统,具备 Shell / Python / Java等脚本开发能力;
•具备良好的沟通能力、文档编写能力与团队协作精神。
事故处理经验要求:
•有大规模数据平台或任务集群的故障排查经验;
•能独立定位并解决数据延迟、数据丢失、任务失败、资源瓶颈等问题;
•熟悉常见的大数据任务异常场景,如:
• Spark OOM、Shuffle失败、Executor丢失;
• Kafka消费积压、分区重平衡、Offset异常;
• Hive任务慢、数据倾斜、锁表;
• Flink Checkpoint失败、State过大、反压;
• YARN资源不足、调度失败、任务卡死等;
•有生产环境日志分析、性能调优、容量评估的实际经验;
•有灾备恢复、降级方案、灰度上线等实际操作经验者优先。
加分项:
•有 PB 级别数据处理经验;
•有数据湖架构设计与落地经验;
•有数据服务平台(如数据血缘、数据质量、元数据中心)建设经验;
•有开源社区贡献经验(如 Apache Flink、Hive、Spark);
•有数据中台建设经验;
•有云原生大数据平台(如 EMR、Databricks、MaxCompute)使用经验。
有以下经验优先考虑:
•数据仓库建设:主导或参与过企业级数据仓库项目,从ODS到DWD/DWS/ADS分层设计,支撑业务分析、BI报表、数据服务等场景。
•实时计算平台:使用 Flink 或 Spark Streaming 搭建过实时数据管道,处理日均亿级数据量,保障低延迟、高可用。
•任务调度系统:基于 Airflow / DolphinScheduler 实现复杂任务调度与依赖管理,解决任务失败重试、断点续跑、依赖混乱等问题。
•数据质量体系:搭建过数据质量监控系统,实现字段级完整性、一致性、唯一性、范围校验等规则的自动化检测与报警。
•线上故障处理:有多个线上事故处理案例,如 Kafka消费积压、Spark任务OOM、Flink Checkpoint超时、Hive锁表等,能提供详细处理过程与优化方案。
工作地点:湖南湘潭九华
福利待遇:周末双休,五险一金,带薪年假,法定休假,餐费补贴,免费住宿…
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕