职位描述
大数据后端开发工程师
一、岗位职责
1.数据架构搭建:设计与维护企业级大数据平台架构,负责数据采集、存储、计算、分析的全链路开发(如日志采集、业务数据同步、数据仓库建设)。
2.核心组件开发:基于 Hadoop/Spark/Flink 等框架开发数据处理模块,实现海量数据的清洗、转换、聚合。
3.数据服务构建:开发数据 API 接口,为前端应用、BI 系统、AI 模型提供稳定的数据支撑。
4.平台优化与运维:监控大数据集群运行状态(CPU / 内存 / 磁盘使用情况),处理数据倾斜、任务超时等问题,定期优化集群配置(如调整并行度、资源分配),确保平台 7×24 小时稳定运行。
任职要求
二、核心技术能力
1.熟练使用 Hadoop 生态(HDFS、YARN、Hive)、Spark/Spark Streaming 或 Flink,能写数据处理脚本,了解分布式计算原理。
2.熟悉 Kafka 等消息队列,能设计数据实时同步流程(。
3.掌握 HBase/ClickHouse 等分布式数据库(存海量结构化数据)、Elasticsearch(做数据检索),懂列式存储与行式存储的区别。
4.精通 SQL 与 Spark SQL,能写复杂数据关联查询,并优化查询性能。
三、开发与工程能力
1.熟练使用 Java/Scala 编程,能基于大数据框架开发自定义算子,用 Maven/Gradle 管理项目依赖。
2.了解数据仓库建模(如星型模型、雪花模型),能根据业务需求设计数据分层(原始数据层→清洗层→应用层)。
3.熟悉 Kubernetes、Docker,能在云上部署大数据集群。
4.了解 Superset/Tableau 等可视化工具的数据对接,或与 AI 团队协作提供模型训练数据。
5.懂数据脱敏、权限控制,了解数据合规要求。
6.熟悉Flink CDC 实时同步、湖仓一体架构。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕