1.2-1.5万·14薪
惠广大厦
一、岗位职责:
1. 根据架构师设计的方案,开发高可靠数据抽取流程(Kafka/Flink CDC实时采集、批量数据同步),编写Flink DataStream/SQL作业实现实时ETL逻辑(如数据清洗、维度关联、实时聚合),维护Airflow/DolphinScheduler任务流,保障批处理任务(Hive/Spark)的准时调度与故障恢复;
2. 基于架构师规划的数仓分层模型(ODS/DWD/DWB/DWS/ADS),开发SQL/脚本实现数据加工逻辑,在ClickHouse/ByteHouse中构建物化视图、分布式表,优化ADS层查询性能;
3. 实施数据质量校验规则(唯一性、完整性、一致性检查),集成Great Expectations/Deequ工具,配置实时任务监控告警(如Flink
Checkpoint失败、Kafka Lag突增、任务延迟);
4. 优化ETL任务性能(如Flink并行度调整、ClickHouse批量写入优化),清理无效中间数据,管理云存储生命周期,降低存储成本;
5. 与业务部门沟通数据需求,明确指标口径并转化为技术实现,配合数据分析师完成特征工程数据集的自动化供给。
二、任职要求:
1. 熟练使用至少一种流处理框架:Flink(必须掌握DataStream/Table API)、Spark Streaming;
2. 精通SQL开发:能编写复杂嵌套查询、窗口函数、ClickHouse集群表优化语句;
3. 掌握数据调度工具:Airflow/DolphinScheduler/Oozie的任务编排与监控;
4. 熟悉云数据存储:Kafka、HDFS/OSS/S3、ClickHouse/ByteHouse表引擎特性;
5. 有Python/Java/Scala至少一门语言的ETL脚本开发经验;
6. 掌握数据同步工具:Flink
CDC、Debezium、DataX、Sqoop的使用与问题排查;
7. 具备基础K8s运维能力:查看Pod日志、重启Deployment、理解资源申请配置。
8. 能快速理解用户行为数据模型(事件埋点、会话分析)、业务指标体系(DAU、转化率、留存率);
9. 严谨的逻辑思维:能发现数据链路中的逻辑漏洞(如重复计算、时效断层);
10. 良好文档习惯:清晰注释代码、编写数据字典与任务说明文档;
11. 良好的抗压能力:适应线上任务故障的紧急修复与数据回溯;
12. 有ClickHouse/ByteHouse开发经验(如物化视图维护、字典函数优化)者,开发过实时数据看板(Grafana/Superset)的ETL支撑层者,熟悉智能营销场景数据(用户分群、AB实验数据管道)者,优先考虑。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕