职位描述
岗位要求梳理(基于Azure & Databricks的数据开发岗)
一、岗位职责(核心工作内容)
1、ETL开发与优化
基于 Azure Data Factory 和 Databricks 设计并实现高效的数据抽取、清洗、转换、加载(ETL/ELT)流程。
使用 Delta Lake 管理数据版本和事务,确保数据一致性。
2、数仓搭建与数据建模
负责数据仓库分层设计(ODS/DWD/DWS/ADS)及维度建模(星型/雪花模型)。
通过 Spark SQL 或 T-SQL 实现复杂业务逻辑的数据加工与聚合。
3、性能调优与数据治理
针对大规模数据场景优化 Spark作业性能(如分区策略、缓存机制、并行度调整)。
使用 Unity Catalog 管理元数据,保障数据血缘可追溯性。
二、硬性要求(必须项)
1. SQL与数仓能力
1.1SQL基本功:
熟练编写复杂嵌套查询、窗口函数、CTE表达式,能通过执行计划分析性能瓶颈。
掌握索引优化、统计信息更新、查询重写等调优方法。
1.2数仓设计:
熟悉 Kimball维度建模 或 Inmon范式建模,具备实际分层设计经验(如ODS→DWD→DWS)。
理解数据湖仓(Lakehouse)架构,能结合 Delta Lake 实现ACID事务支持。
2. Azure & Databricks开发能力
2.1Azure生态工具链:
熟练使用 Azure Data Factory 编排ETL管道,配置触发器与数据流。
熟悉 Azure Databricks 的集群管理(自动缩放、Spot实例优化)、Notebook开发及作业调度。
2.2Databricks核心技术栈:
掌握 Spark SQL 和 PySpark 进行数据转换,熟悉 Delta Live Tables 实现增量数据处理。
具备数据湖仓一体化实施经验(如 Azure Data Lake Storage Gen2 + Databricks 集成)。
三、加分项(优先考虑)
1、行业经验
快消/零售行业背景,熟悉销售分析、库存预测、用户行为分析等典型场景。
2、技术扩展能力
API开发:能通过 Azure Functions 或 Databricks Jobs API 实现服务化数据接口。
Python能力:熟悉 Pandas、PySpark 进行数据清洗,或使用 MLflow 辅助模型部署。
3、多云经验
有阿里云 MaxCompute、DataWorks 或其他云平台数据开发经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕