职位描述
一、岗位职责
1. 独立负责业务数据的清洗、加工与建模工作,基于离线计算与实时计算任务完成数据采集、转换、加工与入仓。
2. 根据业务需求设计数据处理逻辑,使用 SQL 与计算框架完成复杂数据抽取、清洗、关联、聚合与指标计算。
3. 负责数据仓库分层模型建设与维护(ODS / DWD / DWS / ADS),保障数据口径一致与可复用。
4. 设计与优化 ETL/ELT 数据链路,提升任务稳定性、执行效率与数据质量。
5. 负责数据任务的调度、监控与异常处理,保障数据链路稳定运行。
6. 深度配合业务团队,理解业务逻辑,将需求转化为可落地的数据模型与指标体系。
7. 持续进行 SQL 与数据处理性能优化,降低资源消耗,提高计算效率。
二、岗位要求
1. 本科及以上学历,计算机、软件工程、信息工程、统计、数学等相关专业。
2. 熟练使用 SQL,能够独立完成复杂查询、窗口函数、子查询、分组聚合等。
3.熟练掌握 Java / Python / Scala 中至少一种,能够独立开发数据清洗与计算任务。
4.熟悉 Linux 命令及 Shell 脚本,具备数据处理与任务自动化能力。
5. 熟练使用 Hive / Spark SQL / ClickHouse / MySQL 等数据处理引擎中的至少一种。
6. 熟练使用 Spark / Flink / Hadoop 等大数据计算框架之一,并具备以下能力:
* 能够独立开发批处理任务(Spark Core / Spark SQL),完成复杂数据清洗、转换、聚合与指标计算。
* 熟悉 Flink 流处理,能够完成实时数据清洗、计算与入库,对事件时间、状态管理、Checkpoint、Watermark 等机制有实践经验。
* 熟悉 Spark / Flink 任务调优方法,包括并行度设置、内存管理、Shuffle 优化、Join 优化等。
* 具备批流一体化或实时 ETL 项目经验,能够设计稳定、高效的数据处理链路。
* 了解 Hadoop HDFS 存储机制及常用组件(YARN、MapReduce 等),能进行资源管理与调度优化。
7. 熟悉数据仓库建模方法与分层设计,具备完整数仓建设或重构经验者优先。
8. 熟悉常见数据质量问题及处理方法,有数据校验、监控、排错经验。
7. 具备良好的业务理解能力与沟通能力,能够独立对接业务需求并推动落地。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕