职位描述
岗位职责:
1. 负责大数据平台的整体架构设计(如Lambda/Kappa架构、湖仓一体(Lakehouse)),选择合适的开源组件(Hadoop/Spark/Flink生态、HBase/ClickHouse/Doris存储、Kafka消息队列),确保架构满足高可用、高并发、可扩展要求。
2. 主导大数据平台的部署、配置与调优,整合数据采集(Flume/Sqoop/Kettle)、存储(HDFS/对象存储)、计算(Spark/Flink)、分析(Hive等)全链路,实现数据从原始输入到价值输出的无缝流转。
3. 开发CI/CD流水线(如Jenkins)、配置管理工具(Ansible),实现平台部署、升级的自动化,减少人工干预;开发数据质量监控工具,保障数据准确性与时效性。
4. 基于云原生技术(Kubernetes/Docker)构建容器化大数据平台,实现资源弹性伸缩,降低运维成本。
5. 搭建全链路监控体系(Prometheus/Grafana、ELK Stack),监控集群性能(CPU/GPU/内存/磁盘使用率)、任务状态(Spark/Flink作业延迟)、数据质量(缺失值/重复值),及时定位并解决故障(如节点宕机、数据倾斜),确保平台SLA(99.9%可用性)。
6. 通过JVM调优(Spark/Flink作业参数调整)、存储优化(ORC/Parquet格式、分区表)、索引优化(HBase/ClickHouse索引),提升数据处理效率(如作业运行时间缩短30%以上);优化资源分配(YARN队列管理),降低集群成本。
7. 实施数据安全策略(Kerberos认证、Ranger/Sentry权限管理、数据脱敏),保障数据隐私(如用户信息加密);符合合规要求(GDPR/等保2.0),定期进行安全审计。
任职要求:
1. 具备营销决策平台中大数据平台全生命周期管理经验,涵盖平台构建(架构设计、部署实施)与平台运维(监控保障、优化迭代)两大核心模块。
2. 同时具备技术深度(大数据生态、分布式系统)与工程能力(自动化、DevOps),能应对PB级数据处理、高并发场景及复杂业务需求。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕