岗位职责:
1、负责跨系统ETL流程的设计与开发,处理多数据源整合及复杂业务转换逻辑;
2、主导流批一体数据任务的开发与维护,包括基于Flink的实时处理与基于Spark的离线计算任务;
3、对ETL任务进行性能调优,解决数据倾斜、内存溢出等问题,保障任务稳定高效运行;
4、设计并实施数据质量校验规则与监控方案,确保数据处理过程的准确性与可靠性;
5、参与数据仓库建模与开发,基于Hive、ClickHouse等组件进行数据分层设计与应用支持;
6、协助构建和维护数据血缘追踪体系,推动元数据管理工具(如Atlas/DataHub)的落地与应用。
岗位要求:
1、统招本科及以上学历,计算机、数学或相关专业,具备3年以上大数据或ETL开发经验;
2、具备TB级数据处理平台项目经验,能够独立完成复杂ETL流程的设计与开发;
3、精通Spark、Flink计算引擎,掌握其核心调优方法与参数配置;
4、熟练使用Kafka构建数据管道,具备数据仓库开发经验,熟悉Hive、ClickHouse等组件的使用与优化;
5、熟悉数据质量管理方法论,有数据校验、监控报警等相关实践经历;
6、了解数据治理相关工具与理念,具备数据血缘追踪或元数据管理项目经验者优先;
7、具备多语言编程能力(如 Go/Rust/Python 等)者优先。