职位描述
作为数据平台团队的核心成员,负责基于 Apache Doris 和 Apache Flink 等现代技术栈,构建新一代高性能、实时化的企业级数据仓库与数据湖仓。
一、主要职责
1. 参与设计并实施基于 Doris 的湖仓一体架构,负责核心数据分层(ODS、DWD、DWS、ADS)模型设计和开发,确保模型的高效性与可扩展性。
2. 使用 Apache Flink 开发实时数据管道,处理来自 Kafka 的业务流数据(如实时订单、设备日志等),实现低延迟数据入库与指标计算。
3. 使用 DataX、Flink CDC 等工具进行批量数据同步,从传统业务系统(ERP, CRM, 临床试验系统等)及数据库稳定高效地抽取数据。
4. 熟练使用 Apache DolphinScheduler 作为核心调度工具,编排、监控和管理复杂的 Flink 作业、DataX 任务、Spark 任务及数据质量检测任务,保障数据生产流程的稳定性和时效性。
5. 针对医药数据特性(如主数据、批次追踪、临床试验数据)设计数据清洗、标准化、整合流程。建立并实施数据质量检核与血缘追踪体系,确保数据的准确性、完整性及业务合规性。
6. 对 Doris 表结构(分区、分桶、索引、物化视图)、Flink 作业 及 SQL 进行深度性能调优。监控集群资源使用,平衡数据存储、计算性能与成本。
编写清晰的设计与开发文档。理解业务需求,并提供稳定可靠的数据模型与API服务。
二、岗位要求
1. 计算机科学、信息技术、生物医学信息学或相关专业本科及以上学历。
2. 5年以上数据仓库/大数据开发经验,其中至少 2年 专注于基于 Hadoop/Spark/Flink 的现代数据平台开发。
3. 熟练掌握实时计算框架 Apache Flink,有使用 Flink DataStream API / Table API & SQL 开发实时ETL和维表关联的实际项目经验。
4. 精通新一代MPP数据库 Apache Doris(或 StarRocks),有集群部署、数据建模、性能调优及日常运维经验。
5. 熟悉数据集成工具 DataX,能够编写和优化异构数据源的同步作业。
精通 SQL 和 数据建模(维度建模),具备复杂逻辑实现和深度优化能力。
熟悉流式数据总线 Apache Kafka,了解其生产/消费原理、分区策略及运维知识。
6. 有医药、医疗健康或相关生命科学行业的数据处理经验,了解该领域的业务场景与数据特性。
7. 熟悉 Shell 或 Python 脚本,用于自动化运维和工具开发。
8. 有使用 BI报表工具(如 Tableau, Power BI, 帆软等)进行数据对接和支持的经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕