核心职责:
1. 为调度系统构建数据预处理流水线,保障输入数据质量
2. 开发自动化清洗工具,处理缺失/异常/重复数据,实施标准化
3. 设计数据质量监控规则(完整性/一致性校验)
4. 集成调度系统(Airflow等),优化ETL流程衔接
5. 编写技术文档,支持跨团队数据需求
6.本科及以上学历, 3-5年工作经验
必备技能:
1.熟悉Python(Pandas/NumPy)及SQL
2.数据清洗开发经验,熟悉正则/字符串处理
3.了解数据治理框架(DAMA/DCMM)
4.掌握ETL工具(PySpark/Great Expectations)
5.熟悉Linux环境与基础Shell脚本
加分项:
1.调度系统(Airflow)或云平台(AWS/Azure)经验
2.数据血缘追踪/元数据管理实践
3.大数据生态(Spark/Hive)基础