主要职责:
1、设计与开发: 设计、构建和维护大规模、高可用、高性能的数据处理平台、数据仓库(Data Warehouse)和数据湖(Data Lake)架构。
2、数据管道构建: 开发和维护ETL/ELT数据流水线,实现从多种数据源(如数据库、日志、API、IoT设备等)到数据存储(如HDFS, S3, Hive, HBase, Kafka等)的自动化、高效、可靠的数据采集、清洗、转换和加载。
3、数据处理与分析: 使用大数据处理框架(如Spark, Flink, Hive, Presto等)进行海量数据的批处理、流处理和实时分析任务开发。
4、数据建模: 设计和实现数据仓库的维度模型(如星型模型、雪花模型)或数据湖的分层架构(如ODS, DWD, DWS, ADS),确保数据的准确性、一致性和可访问性。
5、性能优化: 持续监控和优化数据处理任务的性能,包括SQL查询优化、Spark/Flink作业调优、资源管理等,提升数据处理效率和系统稳定性。
6、数据质量与治理: 建立和实施数据质量监控、数据血缘追踪、元数据管理机制,确保数据的可靠性和可追溯性。
7、平台维护与监控: 参与大数据平台(如Hadoop, Spark, Kafka, Flink等)的部署、配置、监控、故障排查和日常维护。
8、技术创新: 关注大数据领域的新技术、新工具和最佳实践,并评估其在公司业务场景中的应用价值。
9、文档与协作: 编写清晰的技术文档,与团队成员有效沟通,分享知识和经验。
任职要求:
1、教育背景: 计算机科学、软件工程、信息技术或相关专业本科及以上学历。
2、工作经验: 通常要求3年以上大数据开发相关工作经验。
核心技能:
1、精通至少一种编程语言:Java 或 Scala (强烈推荐),熟悉 Python。
2、熟练掌握 SQL,具备复杂SQL编写和优化能力。
3、深入理解大数据生态系统核心组件:Hadoop (HDFS, YARN), Spark (Core, SQL, Streaming), Kafka。
4、熟悉至少一种数据仓库/数据湖技术:Hive, HBase, Presto/Trino, Impala, Delta Lake, Iceberg, Hudi。
5、熟悉至少一种流处理框架:Flink, Spark Streaming, Kafka Streams。
6、熟悉关系型数据库(如MySQL, PostgreSQL)和NoSQL数据库(如Redis, MongoDB)的基本原理和使用。
7、熟悉Linux操作系统和常用命令。
8、熟悉Shell脚本编写。
9、了解分布式系统基本原理(如CAP理论、一致性、容错)。
加分项:
有云平台(如AWS, Azure, GCP, 阿里云)大数据服务(如EMR, Redshift, BigQuery, Data Lake, Databricks)使用经验。
有容器化技术(Docker, Kubernetes)和CI/CD实践经验。
有数据治理、数据血缘、元数据管理工具(如Atlas, DataHub)使用经验。
有实时数仓、Lambda/Kappa架构设计经验。
有机器学习平台或AI相关数据处理经验。
有大型互联网公司或复杂业务场景大数据平台建设经验。
具备良好的问题解决能力、沟通能力和团队协作精神。
对数据敏感,具备强烈的责任心和质量意识。