一.职业详情
1、根据公司数据资产化与智能化应用需求,通过构建高可用数据基础设施、保障数据链路高效稳定运行、落地数据治理标准,达到支撑企业数据价值释放、赋能业务決策的核心目标;
2、组织/计划:根据业务需求与技术发展趋势,设计数据仓库、实时数仓、数据湖的架构演进路线图(如分层模型设计、计算资源分配);制定ETL开发规范、数据建模标准(如维度建模)、代码版本管理规则等,评估数据计算与存储资源需求(如
Hadoop集群容量),协调基础设施团队规划资源扩容或优化方案;
3、执行:完成数据采集、清洗、转换、加载(ETL/ELT)全流程开发,保障数据链路高效稳定;基于业务场景设计数据表结构(如用户行为事件表、订单事实表),编写SQL/Python代码实现逻辑;开发数据API、数据订阅服务、报表底层数据集,支持业务端数据调用需求;定位并修复数据链路异常(如数据延迟、计算任务失败),保障数据产出时效性;
4、协助配合:配合数据产品经理、数据分析师理解数据需求逻辑(如复杂业务指标拆解),提供技术可行性评估;协助数据团队落地数据质量监控规则、数据管理工具部署;
5、审核/审批:审核ETL脚本逻辑合理性、代码性能,确保开发质量;审核数据血缘映射关系、数据一致性校验规则,避免脏数据进入下游;审批数据表、API接口的访问权限申请;
6、分析改进:通过日志分析、资源监控,优化数据计算效率;基于故障分析,改进数据管道容错机制;评估新技术工具的适用性,推动技术栈升级;
二.任职要求
1.本科及以上学历,数据科学或计算机相关专业,一年以上经验;
2.熟练掌握 Java、Python 等一种及以上编程语言,有编程实践经验;
3.熟悉关系型数据库(如:MySQL、Oracle、SqlServer)、非关系型数据库(如:MongoDB、Redis)及分布式数据库(如:Doris)的原理与优
4.熟悉 Flink、Kafka、Hadoop、Spark、Hive、MapReduce、HBase 等大数据技术栈,并了解其工作原理和应用场景;
5.掌握 ETL/ELT 流程设计,使用工具实现数据从数据源到数据仓库的抽取、加载和转换,例如:
ETLCloud, Kettle (Pentaho) , Airflow,
Apache NiFi、DolphinScheduler 等;
6.理解数据仓库理论(如 Inmon、Kimball 建模方法),能设计分层数据仓库(ODS/DWD/DWS/ADS),优化数据模型以提升查询效率;
7.掌握数据链路监控工具,能快速定位并修复数据延迟、任务失败等生产问题;熟悉数据质量保障方法(如数据一致性校验、血缘追溯),确保数据输出的准确性与可靠性;
8.严谨、细密和工作态度和工作风格,良好的团队合作精神,较强的内部及外部沟通能力,能够承受较大的工作压力;
9.有厂商大数据认证优先;