工作职责:
1. 负责大数据平台(Hadoop/Spark/Flink等)开发,维护和优化,保障数据管道稳定高效运行。
2. 设计并开发数据ETL流程,处理海量结构化/非结构化数据,支持数据仓库(如Hive、HBase、ClickHouse等)建设。
3. 参与实时计算系统开发(如Kafka、Flink、Storm),满足业务实时数据分析需求。
4. 与业务部门协作,理解数据需求,提供数据建模、清洗、聚合等解决方案。
任职要求
技术能力:
1. 编程基础:熟练使用Java/Scala/Python/SQL至少一种,熟悉算法与数据结构。
2. 大数据生态:
- 精通Hadoop、Spark、Hive、HBase、Flink等框架,理解其底层原理(如MapReduce、RDD、Spark SQL优化)。
- 熟悉分布式计算、存储原理(如HDFS、YARN资源调度)。
3. 数据仓库:熟悉维度建模、OLAP技术,有数仓分层(ODS/DWD/DWS/ADS)设计经验。