(和国网对接)
具备4年以上大数据技术开发工作经验,参与过中型规模项目(9-15人团队),负责关键模块的设计和实现。
1、编程和脚本语言:熟悉Java、Scala、Python等编程语言,能够编写高效的数据处理和分析代码,同时熟练使用Shell脚本进行系统操作和自动化任务。
2、大数据处理框架:熟悉Hadoop生态系统,包括HDFS、MapReduce、YARN等,能够进行分布式数据处理;熟练使用Spark进行数据处理,了解其核心组件和优化技术;了解Flink等实时数据处理框架,具备流计算处理能力。
3、数据存储和管理:熟悉NoSQL数据库,如HBase、Hive、ClickHouse等,能够设计和优化数据模型,进行大规模数据存储;了解数据仓库技术,如Impala、Presto、Doris等,能够进行大规模数据查询和分析。
4、数据流和消息系统:熟练使用Kafka、RabbitMQ、Datahub等消息队列系统,能够实现高吞吐量的数据流处理;了解实时数据处理技术,如Flink、Storm,能够构建低延迟的数据处理管道
5、数据处理和分析:具备数据清洗、预处理、转换和建模的能力,能够处理复杂的数据集;熟悉数据挖掘和机器学习算法,能够使用工具如Spark MLlib、Scikit-learn进行数据分析和建模。
6、数据中台开发能力:熟悉数据中台相关生态组件的使用和优化,如Dataworks、MaxCompute、QuickBI等,能够编写复杂SQL脚本进行业务指标的计算分析,能够完成数据中台脚本开发与数据处理工作。
7、数据可视化:熟练使用数据可视化工具,如QuickBI、帆软报表等,能够将数据分析结果可视化展示,以便更好地进行数据驱动的决策。
8、数据湖:了解Apache Hudi和Delta Lake等数据湖技术,能够基于数据湖开展数据分析和处理工作。
1.本科及以上学历,计算机专业优先。
2.java开发工作经验5年以上,后台服务开发3年以上 。
3.具备较强的业务分析能力,能够独立解决问题 。
4.能够独立进行需求对接并进行大数据开发 。
5.在项目中使用flink或者spark等大数据开发工作经验4年以上者优先 。
6.具备大规模分布式后台服务开发工作经验4年以上者优先