岗位职责
1. 利用大数据技术,以医疗、基因检测数据为源数据进行数仓开发;
2. 设计、开发和维护数据处理流程,包括数据的采集、清洗、转换和加载,确保数据的准确性、完整性和一致性;
3. 设计和管理数据存储结构,包括数据仓库、数据湖等,优化数据的存储和查询性能;
4. 跟踪和应用最新的数据技术和工具,持续改进数据开发流程和数据处理效率;
5. 编写技术文档。
任职要求
1. 本科学历,计算机科学、数据科学、生物信息学等相关领域专业;
2. 经验要求:具备3年以上大数据开发经验;
3. 有扎实的SQL功底和调优能力,有Java、Python语言的编程能力、有Python 爬虫经验;
4. 有Hive数仓的开发经验,掌握数据仓库的经典建模方法,属性数据仓库各类建模理论;
5. 熟悉大数据存储和计算引擎生态栈,熟悉Hadoop、Spark、阿里云DataWorks+MaxCompute等相关组件技术并有相关开发经验;
6. 熟悉常用的关系型、非关系型数据库,分布式存储引擎,如Mysql、MongoDB、Doris等相关组件技术并有相关开发经验;
7. 对数据同步工具如DataX、Sqoop等有一定的使用经验;
8. 有半结构化及非结构化数据处理经验。