职位描述
岗位职责:
1. 负责数据任务开发,熟悉Hadoop/Spark基础组件(HDFS/YARN/MapReduce)的核心功能。
2. 精通复杂的HiveSQL任务,并能优化Hive SQL执行效率(分区裁剪、谓词下推)。
3. 熟练开发Spark批处理任务,理解RDD/DataFrame执行原理,能优化Shuffle、内存配置。
4. 熟练构建星型/雪花模型,根据业务场景设计数据模型。
5. 使用ETL工具(如Kettle)完成数据加工和处理,支持业务部门数据需求。
6. 设计多源异构数据集成方案(如API、日志文件、数据库混合接入),解决数据一性冲突。
7. 能根据业务需求,设计多维度、多指标的复杂报表,熟悉ClickHouse/DorisDB集群部署与查询优化。
8. 开发数据质量监控脚本,识别异常数据并推动业务方修复。
9. 使用Python/Java开发数据服务,培训业务人员使用自助分析工具。
10. 深入理解相关领域的基本业务概念和流程,能独立完成业务需求的开发,解决复杂问题。
岗位要求:
1. 熟悉Hadoop/Spark基础组件(HDFS/YARN/MapReduce)的核心功能。
2. 精通复杂的HiveSQL任务,并能优化Hive SQL执行效率。
3. 熟练开发Spark批处理任务,理解RDD/DataFrame执行原理。
4. 熟练构建星型/雪花模型,根据业务场景设计数据模型。
5. 熟练使用ETL工具(如Kettle)完成数据加工和处理。
6. 熟悉基础调度工具(如Airflow/DolphinScheduler)的任务配置与监控。
7. 熟悉MySQL/Oracle等数据库的增删改查操作,了解索引等基础优化方法。
8. 能根据业务需求,设计多维度、多指标的复杂报表。
9. 开发数据质量监控脚本,能识别异常数据并推动业务方修复。
10. 使用Python/Java开发数据服务,并能培训业务人员使用自助分析工具。
11. 深入理解相关领域的基本业务概念和流程,能独立完成业务需求的开发。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕