职位详情
大数据开发工程师
1.2-1.8万
湖南闪充网科技有限公司
湘潭
3-5年
本科
07-25
工作地址

湘潭市-雨湖区-白石西路78号闪充公司

职位描述

岗位职责:


负责公司级大数据平台的数据仓库架构设计与开发,包括数据采集、清洗、建模、存储、计算等环节;

•参与构建实时/离线数据处理流水线,支撑业务数据报表、数据服务、AI建模等场景;

•使用 Flink / Spark / Hive / Kafka / HDFS / HBase 等组件完成数据处理任务;

•负责 ETL 任务的开发、调度与优化,保障数据质量与任务稳定性;

•推动数据治理体系建设,包括元数据管理、数据血缘、数据质量监控等;

•参与线上任务的故障排查、性能调优与容量规划,具备实际事故处理经验;

•持续优化大数据平台的可用性、扩展性与稳定性。



要求实际大数据开发经验3年以上:

核心技能:

•熟悉大数据生态体系,掌握以下组件的至少 3 项:

•数据仓库:Hive、HDFS、HBase、Iceberg、Hudi、Delta Lake

•离线计算:MapReduce、Spark

•实时计算:Flink、Storm、Spark Streaming

•消息队列:Kafka、RocketMQ、Pulsar

•任务调度:Airflow、DolphinScheduler、XXL-JOB

•数据治理:Atlas、DataHub、DQC、OpenLooKeng 等

•熟悉数据仓库建模理论,掌握星型模型、雪花模型、缓慢变化维度等设计方法;

•熟练编写 SQL,具备 HiveQL、Spark SQL、ClickHouse SQL 的实际开发经验;

•有良好的数据敏感度,具备数据质量监控、异常分析、任务调优经验;

•熟悉 Linux 操作系统,具备 Shell / Python / Java等脚本开发能力;

•具备良好的沟通能力、文档编写能力与团队协作精神。


事故处理经验要求:

•有大规模数据平台或任务集群的故障排查经验;

•能独立定位并解决数据延迟、数据丢失、任务失败、资源瓶颈等问题;

•熟悉常见的大数据任务异常场景,如:

• Spark OOM、Shuffle失败、Executor丢失;

• Kafka消费积压、分区重平衡、Offset异常;

• Hive任务慢、数据倾斜、锁表;

• Flink Checkpoint失败、State过大、反压;

• YARN资源不足、调度失败、任务卡死等;

•有生产环境日志分析、性能调优、容量评估的实际经验;

•有灾备恢复、降级方案、灰度上线等实际操作经验者优先。


加分项:

•有 PB 级别数据处理经验;

•有数据湖架构设计与落地经验;

•有数据服务平台(如数据血缘、数据质量、元数据中心)建设经验;

•有开源社区贡献经验(如 Apache Flink、Hive、Spark);

•有数据中台建设经验;

•有云原生大数据平台(如 EMR、Databricks、MaxCompute)使用经验。


有以下经验优先考虑:

•数据仓库建设:主导或参与过企业级数据仓库项目,从ODS到DWD/DWS/ADS分层设计,支撑业务分析、BI报表、数据服务等场景。

•实时计算平台:使用 Flink 或 Spark Streaming 搭建过实时数据管道,处理日均亿级数据量,保障低延迟、高可用。

•任务调度系统:基于 Airflow / DolphinScheduler 实现复杂任务调度与依赖管理,解决任务失败重试、断点续跑、依赖混乱等问题。

•数据质量体系:搭建过数据质量监控系统,实现字段级完整性、一致性、唯一性、范围校验等规则的自动化检测与报警。

•线上故障处理:有多个线上事故处理案例,如 Kafka消费积压、Spark任务OOM、Flink Checkpoint超时、Hive锁表等,能提供详细处理过程与优化方案。


工作地点:湖南湘潭九华

福利待遇:周末双休,五险一金,带薪年假,法定休假,餐费补贴,免费住宿…


以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

为您推荐更多相似职位
立即申请