职位描述
职责:
- 负责建设与维护实时和离线数据采集管道,接入业务数据库、日志、消息队列以及外部 API;实现 CDC、批量同步等采集方式。
- 搭建流处理框架,重点掌握 Apache Flink 的 DataStream API 和 Flink SQL(Flink SQL 支持在流处理和批处理作业中使用 ANSI 标准 SQL );根据实际场景进行状态管理、窗口计算和事件时间处理,保证数据按需清洗与聚合。
- 负责 Kafka 等消息系统的运维与优化,保证高吞吐和低延迟,并实现 Exactly-Once 语义 。
- 参与批流一体架构的落地,与架构师共同制定技术方案,编写数据采集与清洗组件,保障数据质量、监控和告警。
任职要求:
- 本科以上学历,3 年以上大数据开发经验;熟悉 Linux、网络和容器化部署。
- 扎实的编程能力(Java/Scala/Python),精通 Kafka 或 Pulsar 等消息队列;熟悉数据采集工具(Flink CDC、Debezium、Maxwell 等)。
- 深刻理解 Flink 的流式计算模型:Flink 通过真正的流式数据流引擎在数据到达时立即处理,区别于微批架构;同时提供严格的一次处理语义和事件时间处理能力 。
- 熟悉 Spark、Flink、Hadoop 等大数据生态;了解数据湖文件格式(Iceberg/Delta/Hudi)。
- 理解元数据管理和数据质量监控,具备自动化运维能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕