职位描述
工作内容:
短期内需要
1、负责企业内部数据提取、转换、导出流程的开发与优化。
2、负责数据对接实施,包括从外部系统到企业内部数据存储的集成工作。
3、设计并优化数据同步与反馈机制,确保数据准确性与可追溯性。
未来需要
1、构建标准化的数据集成与导出框架,提高数据对接的可复用性和稳定性。
2、优化数据管道,提高数据处理的实时性与效率。
3、参与数据平台的架构设计,提高系统的可扩展性和可靠性。
任职要求:
1、基础技能
- 精通 Python 及相关数据处理库(Pandas、SQLAlchemy 等),能够高效进行数据提取、转换和加载(ETL)。*
- 熟悉 SQL,具备数据库设计与优化能力,能够高效处理大规模数据查询。
- 了解分布式计算框架(如 Spark、Flink),能够处理大数据计算任务。
- 熟悉 Linux 环境,具备 Shell 脚本编写能力,能够进行基本的系统运维与自动化任务管理。
2、数据导出与实施相关技能
- 熟悉常见的数据接口协议(如 REST API、GraphQL、gRPC、WebSocket),能够高效完成数据对接任务。
- 熟悉主流数据库(MySQL、PostgreSQL、MongoDB)及数据仓库(Snowflake、ClickHouse),具备数据同步与优化经验。
- 具备日志跟踪和数据质量监控能力,确保数据准确性和完整性。
- 熟悉常见数据交换格式(JSON、CSV、Parquet),能够高效进行数据转换和传输。
- 了解数据权限管理和合规要求,确保数据安全与合规性。
3、项目经验
- 具备多个数据落地项目经验,至少有 1 个完整的数据对接、清洗和导出项目经验。*
- 具备企业级数据集成经验,能够完成从外部系统到企业内部系统的数据导入、同步和反馈流程优化。*
- 熟悉 ETL 及数据管道构建流程,能够独立完成数据流设计与实现。
- 具备分布式系统经验,能够处理高并发数据导出任务。
- 了解 CI/CD 流程,能够实现数据处理任务的自动化部署。
4、加分项
- 具备 Airflow、Dagster 等数据调度工具使用经验,能够优化任务调度与管理。
- 具备 Kafka、RabbitMQ 等消息队列经验,能够优化数据传输与解耦。
- 了解数据湖(Data Lake)架构及其应用,能够进行数据存储优化。
- 具备云平台(AWS、GCP、Aliyun)数据服务经验,能够实现云上数据集成。
- 具备一定的 DevOps 能力,能够维护和优化数据处理环境。
- 具备良好的沟通与协作能力,能够高效对接业务团队,推动数据项目落地
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕