职位描述
大数据开发工程师
一、 核心职责
1. 负责企业级数据仓库、数据湖的搭建、模型建设(维度建模、数据仓库分层等)与持续优化。
2. 设计和开发高可用、高扩展的实时数据计算管道,处理业务场景下的实时数据需求(如实时监控、实时报表等)。
3. 负责大规模离线数据ETL/ELT流程的开发与运维,确保T+1或周期性的数据任务稳定高效运行。
4. 负责数据任务的调度监控、故障排查和日常运维,保障数据产出的 SLA
5. 负责数据中台技术组件的选型、集成与开发,提升数据研发效率和数据资产的治理水平。
6.持续优化数据处理性能,解决海量数据下的计算、存储和性能瓶颈。
7. 与算法工程师深度协作,负责为模型训练、特征工程、离线评估等环节提供稳定、高效的数据支持。
二、 必备要求
工作经验:
计算机科学、信息技术或相关专业,本科及以上学历。
5年以上大数据开发经验,必须有大型数据仓库项目从0到1的构建或核心模块深度参与的经验。
必须具备丰富的实时和离线数据处理项目经验,并能清晰阐述其在项目中的具体角色和技术方案。
技术栈要求:
编程语言: 精通 Java 或 Scala、熟悉python语言具备扎实的编程能力和良好的代码风格。
大数据框架:
实时计算: 精通 Flink(优先)或 Spark Streaming,了解其核心原理(如状态管理、容错机制)。
离线计算: 精通 Spark 或 Hive,有丰富的SQL优化和分布式计算调优经验。
数据仓库与存储:
深入理解数据仓库分层理论(如ODS, DWD, DWS, ADS)。
熟练使用至少一种MPP数据仓库/引擎,如 Hive,ClickHouse, Doris, StarRocks 等。
调度与治理: 熟练使用 DolphinScheduler, Airflow 等调度工具;了解 Atlas, DataHub 等数据治理工具者优先。
三、 优先考虑
1. 熟悉数据湖技术(如 Iceberg、Hudi、Delta Lake)及其在数据仓库/中台架构中的应用。
2. 有 Kubernetes 上部署和运维大数据组件的经验。
3. 具备优秀的问题定位和解决能力,能对复杂数据问题进行深度剖析。
4. 拥有良好的沟通能力和团队协作精神,能够推动技术方案落地
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕