职位描述
一、岗位职责
1、大数据数仓、宽表、实时和离线分析等整体架构设计;
规划大数据平台的整体架构,确保其具备高可用性、可扩展性、安全性和性能。
设计数据采集、存储、计算、分析及可视化的一体化技术方案。
根据业务需求选择分布式架构(如Lambda架构、Kappa架构)或实时/离线混合架构。
2、技术选型与工具链搭建
评估并选择适合的大数据组件(如Hadoop、Spark、Flink、Doris、Kafka、Hive、HBase等)。
结合云原生技术(AWS、Azure、阿里云等)构建混合云或全云化解决方案。
搭建数据中台或数据湖(Data Lake),整合多源异构数据。
3、数据处理流程设计
设计ETL/ELT流程,优化数据清洗、转换和加载效率。
支持实时流处理(如Flink、Kafka Streams)和离线批处理(如Spark、MapReduce)。
构建数据管道(Data Pipeline),保障数据时效性与一致性。
4、数据治理与安全
制定数据质量管理策略(数据血缘、元数据管理、数据校验等)。
设计数据权限体系,保障数据隐私与合规性(如GDPR、CCPA)。
实现数据生命周期管理(存储、归档、销毁)。
5、性能优化与成本控制
调优集群性能(资源分配、参数配置、任务并行度等),解决数据倾斜等问题。
优化存储与计算成本(如冷热数据分层、压缩算法选择)。
设计容灾与高可用方案(集群备份、故障自动恢复)。
6、跨团队协作与落地
与业务部门沟通需求,将业务逻辑转化为技术方案。
指导数据工程师、开发团队实现架构落地,制定开发规范。
为数据分析师、算法团队提供高效的数据服务接口(如API、OLAP查询)。
7、新技术研究与创新
跟踪大数据领域前沿技术(如湖仓一体、Data Mesh、AI驱动的数据管理)。
推动技术创新(如引入向量数据库支持AI场景,或探索存算分离架构)。
二、职业要求
1、技术能力
精通大数据生态组件(Hadoop/Spark/Flink/Kafka等)及底层原理。
熟悉至少一种编程语言(Java/Scala/Python)和SQL优化。
具备数据建模能力(维度建模、数据仓库设计)。
熟悉云原生技术(Kubernetes、容器化部署)和DevOps实践。
2、行业经验
5年以上大数据领域经验,主导过大型数据平台架构设计。
熟悉金融、电商、物联网等至少一个行业的数据场景。
3、软技能
优秀的沟通能力,能协调业务、技术等多方团队。
具备技术前瞻性,平衡技术先进性与落地可行性。
良好的文档撰写能力,输出架构设计、技术规范等材料。
三、附加价值
熟悉AI/MLOps技术,支持数据到智能的闭环。
有数据产品化经验(如BI平台、实时大屏、推荐系统)。
持有云计算或大数据认证(如AWS Certified Data Analytics、Cloudera CCP)。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕