职位详情
大模型数据工程师(知识库构建方向)
1.2-2万
山东扁鹊中医药健康产业集团有限公司
济南
3-5年
本科
07-25
工作地址

山东省济南市历城区高新区经十路7000号汉峪金谷A6-5栋

职位描述
岗位职责
1. 数据采集与获取: 设计并实现从多源(文本、结构化DB、API、网页等)获取知识数据的方案。
2. 数据清洗与预处理: 对原始数据进行深度清洗、去噪、格式化、标准化,处理多源异构数据,确保数据质量。
3. 信息抽取与结构化: 应用NLP技术(实体识别、关系抽取、事件抽取等)从非结构化/半结构化文本中提取结构化知识(为知识图谱工程师提供基础数据)。
4. 知识向量化(Embedding)与索引: 选型、应用和优化Embedding模型,将文本/知识转化为向量表示。精通主流向量数据库(Milvus, Pinecone, Weaviate, Chroma, ES w/ vector)的选型、部署、索引构建、优化与维护。
5. 合成数据生成: 探索和应用技术生成用于模型训练、微调或测试的合成数据。
6. 数据流水线与自动化: 构建高效、可扩展、自动化的数据ETL/ELT流水线,支持知识库的持续更新和质量监控。
7. 知识更新机制: 设计和实现知识库的增量更新和版本管理机制。
8. 数据质量与评估: 制定并实施知识数据质量的评估标准和流程。与算法工程师合作定义数据需求。
9. 工具建设: 开发或引入易用的内部工具支持数据清洗、处理、向量化、索引等操作。
任职要求
1. 编程与工程能力:
极其出色的数据处理能力,精通Python数据处理库(Pandas, NumPy, Spark等)和SQL。
强大的数据管道(ETL/ELT)设计、构建和优化能力。
2. AI技术栈:
熟悉主流Embedding模型原理及应用。
精通至少1-2种主流向量数据库的核心原理、部署、API、性能调优。
经验要求:
2年以上大规模数据处理、清洗、构建知识库/数据湖/数据仓库的实战经验。
有使用向量数据库构建和优化检索系统的项目经验。
有信息抽取或数据标注项目经验者优先。
3.核心技能:
大规模多源异构数据处理与清洗。
向量化(Embedding)技术实践。
向量数据库的深度应用与优化。
数据流水线工程化与自动化。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请