职位描述
任职要求:
1、拥有5年以上大数据开发或相关领域(分布式系统、后端开发)的工作经验;
2、有独立设计、开发和运维大规模数据管道/平台的经验;
3、熟练分布式计算框架: Apache Spark (Core, SQL, Streaming) 、Apache Flink 、熟悉 MapReduce 原理;
4、熟悉分布式存储与协调: Hadoop HDFS、Apache Hive、 Apache HBase、Apache Kafka (或类似消息队列如 Pulsar, RocketMQ);
5、精通SQL (特别是面向大数据仓库/引擎的优化),熟悉 Presto/Trino、 Impala、Druid、 ClickHouse 等 OLAP 引擎优先;
6、熟练掌握至少一门:Scala (Spark首选), Python (PySpark, 数据处理库), Java;
7、了解或使用过 Apache Iceberg, Apache Hudi, Delta Lake 优先;
8、熟悉至少一种:AWS、Azure、GCP,了解云平台上的大数据服务架构和运维;
9、Linux 系统 操作和脚本能力(Shell/Python),熟悉版本控制 (Git);
10、了解容器化 (Docker) 和 编排技术 (Kubernetes) 在大数据场景的应用,有自动化运维/部署 (CI/CD)经验;
11、掌握分布式系统原理,理解 CAP、一致性、容错、负载均衡等概念;
12、构建 Flink 实时数据管道的丰富经验优先;
13、深入使用过 Elasticsearch, Cassandra, Redis, Druid, ClickHouse, Neo4j 等优先;
14、了解数据血缘、元数据管理、数据质量监控工具或实践优先;
15、熟练使用 Airflow, DolphinScheduler, Oozie, Azkaban 等优先;
16、有支持 ML 模型训练和部署(特征工程、在线特征服务)的经验优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕