「济南历城区大模型数据工程师（知识库构建方向）招聘」_2026年山东扁鹊中医药健康产业集团有限公司招聘-智联招聘

职位详情

大模型数据工程师（知识库构建方向）

1.2-2万

山东扁鹊中医药健康产业集团有限公司

济南

3-5年

本科

12-18

工作地址

山东省济南市历城区高新区经十路7000号汉峪金谷A6-5栋

职位描述

岗位职责

1. 数据采集与获取：设计并实现从多源（文本、结构化DB、API、网页等）获取知识数据的方案。
2. 数据清洗与预处理：对原始数据进行深度清洗、去噪、格式化、标准化，处理多源异构数据，确保数据质量。
3. 信息抽取与结构化：应用NLP技术（实体识别、关系抽取、事件抽取等）从非结构化/半结构化文本中提取结构化知识（为知识图谱工程师提供基础数据）。
4. 知识向量化（Embedding）与索引：选型、应用和优化Embedding模型，将文本/知识转化为向量表示。精通主流向量数据库（Milvus, Pinecone, Weaviate, Chroma, ES w/ vector）的选型、部署、索引构建、优化与维护。
5. 合成数据生成：探索和应用技术生成用于模型训练、微调或测试的合成数据。
6. 数据流水线与自动化：构建高效、可扩展、自动化的数据ETL/ELT流水线，支持知识库的持续更新和质量监控。
7. 知识更新机制：设计和实现知识库的增量更新和版本管理机制。
8. 数据质量与评估：制定并实施知识数据质量的评估标准和流程。与算法工程师合作定义数据需求。
9. 工具建设：开发或引入易用的内部工具支持数据清洗、处理、向量化、索引等操作。

任职要求

1. 编程与工程能力：
极其出色的数据处理能力，精通Python数据处理库（Pandas, NumPy, Spark等）和SQL。
强大的数据管道（ETL/ELT）设计、构建和优化能力。
2. AI技术栈：
熟悉主流Embedding模型原理及应用。
精通至少1-2种主流向量数据库的核心原理、部署、API、性能调优。
经验要求：
2年以上大规模数据处理、清洗、构建知识库/数据湖/数据仓库的实战经验。
有使用向量数据库构建和优化检索系统的项目经验。
有信息抽取或数据标注项目经验者优先。
3.核心技能：
大规模多源异构数据处理与清洗。
向量化（Embedding）技术实践。
向量数据库的深度应用与优化。
数据流水线工程化与自动化。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕