职位描述
. 数据任务开发:
- 熟悉Hadoop/Spark基础组件(HDFS/YARN/MapReduce)的核心功能。
- 精通复杂的Hive SQL任务,并能优化Hive SQL执行效率(分区裁剪、谓词下推)。
- 熟练开发Spark批处理任务,理解RDD/DataFrame执行原理,能优化Shuffle、内存配置。
2. 数据建模与架构:
- 熟练构建星型/雪花模型,根据业务场景设计数据模型。
3. ETL工具及调度:
- 熟练使用ETL工具(如Kettle)完成数据加工和处理,支持业务部门数据需求。
- 熟悉基础调度工具(如Airflow/DolphinScheduler)的任务配置与监控。
4. 数据集成:
- 设计多源异构数据集成方案(如API、日志文件、数据库混合接入),解决数据一致性冲突。
- 熟悉MySQL/Oracle等数据库的增删改查操作,了解索引等基础优化方法。
5. 报表开发:
- 能根据业务需求,设计多维度、多指标的复杂报表。
- 熟悉ClickHouse/DorisDB集群部署与查询优化。
6. 数据服务与工具开发:
- 开发数据质量监控脚本,识别异常数据并推动业务方修复。
- 使用Python/Java开发数据服务,培训业务人员使用自助分析工具。
7. 业务知识:
- 深入理解相关领域的基本业务概念和流程,能独立完成业务需求的开发,解决复杂问题。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕