职位详情
数据仓库工程师(大模型应用方向)
1.6-2.5万·14薪
北京联东投资(集团)有限公司
北京
3-5年
本科
09-18
工作地址

联东集团联东商务中心

职位描述

主要职责

​​数据仓库设计与开发:​​

1 、参与设计、构建、开发和维护高效、可扩展、高性能的企业级数据仓库架构。

2 、开发和优化复杂的ETL/ELT流程,用于从各种异构数据源(关系型数据库、NoSQL、API、日志文件、文件系统等)抽取、转换和加载数据。

3 、独立负责模块建设,以及上下游对接工作;

4 、负责数据仓库的日常运维、监控和性能调优。

5、构建或集成智能数据问答/探索能力: 参与探索或开发基于大模型的自然语言交互界面,赋能业务用户更便捷地查询和分析数据仓库中的数据。

6、应用大模型增强数据治理: 探索利用LLM进行元数据自动提取、分类、打标、数据血缘关系补充、数据目录内容生成与维护。

7、评估和引入合适的大模型工具/框架: 关注业界在数据工程领域应用LLM的进展,评估并引入合适的开源或商业化工具(如Text-to-SQL引擎、AI辅助数据目录工具等)。

任职要求

1、 熟悉数据仓库各类模型建模理论,了解数据仓库数据分层架构,多维数据模型设计;

2、 熟练使用Hadoop、Spark、Hive等大数据套件 , 熟悉业内主流BI产品,有使用经验优先;

3、 有较强的编程能力和编程经验,至少熟悉Java\Python 等其中一门开发语言;

4、 参与过大型数据仓库架构设计、模型设计、ETL设计,具备海量数据处理、性能调优经验;

5、 至少熟悉一门调度工具如airflow、dolphinscheduler等

6、 熟练操作linux/unix服务器,熟悉shell编程,至少会一门以上脚本编程语言。

7、 熟悉flume、flinkcdc、maxwell、datax等数据采集工具

8、 熟悉常见的olap数据库,如clickhouse、doris,熟悉elasticsearch优先

9、了解大模型原理及应用场景: 熟悉主流大模型(如GPT系列、Claude、Llama等)的基本原理、能力边界及其在数据处理和分析领域的典型应用场景(如Text-to-SQL, Code Generation, NLQ等)。

10、具备大模型工具链实践能力: 熟练掌握至少一种主流大模型API(如OpenAI API, Anthropic API)或开源大模型(如Llama 2, Mistral)的调用、集成与基础Prompt Engineering技巧。

11、有应用大模型解决实际数据问题的意识与经验: 能够思考并尝试利用大模型优化数据开发、数据查询、数据治理或数据运维等环节的具体工作,提升效率或质量。

加分项:

1、 熟悉flink,有实际落地的实时数仓经验

2、 熟悉数据治理,有元数据管理经验

3、 了解数据湖,有过流批一体经验

4、具备大模型应用开发经验: 有实际项目经验,将大模型技术成功应用于数据工程或数据分析领域(如开发基于LLM的数据查询工具、自动化文档生成、智能数据质量检查等)。

5、熟悉大模型在数据仓库/数据平台中的集成模式: 了解如何将LLM能力安全、有效地集成到现有数据架构中(如与BI工具、数据目录、调度系统的结合)。

6、了解向量数据库及其应用: 熟悉主流向量数据库(如Milvus, Pinecone, pgvector, ChromaDB)的原理和使用,理解其在增强大模型知识检索能力方面的作用。

7、熟悉LangChain, LlamaIndex等LLM应用框架: 有使用此类框架构建复杂LLM应用的经验。

8、具备Prompt Engineering优化经验: 能针对特定数据任务设计和优化高效的Prompt,提升模型输出的准确性和可靠性。

9、了解大模型微调(Fine-tuning)基础概念: 知道何时以及如何通过微调提升模型在特定领域任务(如公司专属数据模式理解)的表现。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请