职位信息
负责领导并构建一个覆盖全球标准、技术文献、专利、教材、政策法规及行业数据的超大规模、多语言工业知识语料库。您将定义数据标准,为下一代工业AI大模型和知识图谱提供坚实、高质量的数据基石。这是一个极具挑战性且对公司核心数据战略至关重要的岗位。
核心职责
1.语料规划:
o根据业务目标(如训练垂直行业大模型、构建知识库),制定涵盖所有给定数据类别(标准、文献、专利、教材、政策、数据等)的全面语料库建设路线图与技术架构。
o设计支持多源(PDF、文本、图像、视频、数据库)、多语言(中/英)、多模态数据的高效处理与存储方案。
o建立并持续优化语料数据的质量标准、分类体系和元数据规范。
2.数据采集与获取:
o规划并实施从公开数据库(如各国专利局、IEEE Xplore、NIST、各标准组织)、学术出版商、行业协会、商业数据提供商等渠道获取数据的技术方案。
o负责与数据供应商谈判、采购合法合规的数据授权,管理数据使用许可。
o开发或管理网络爬虫与API集成工具,安全、合规、高效地获取数据。
3.数据处理与加工流水线构建:
o主导搭建自动化、工业级的语料数据处理流水线,覆盖以下关键环节:
文本提取与解析:精通处理海量PDF(扫描版/数字版)、Word等格式文档,应用OCR、版面分析等技术实现高精度文本与结构化信息(如标题、作者、图表标题)提取。
多语言处理:实施专业领域机器翻译、术语对齐和语言质量控制流程。
数据清洗与标准化:设计并应用规则与模型,对文本进行去重、格式化、错误纠正、专业术语归一化。
信息结构化:针对专利、标准、论文等特定类型数据,提取关键字段(如IPC分类号、标准号、DOI、摘要、权利要求、章节标题等)。
非结构化数据标注:为图像(如缺陷检测、CAD图纸)、视频(如操作过程)等数据集设计并管理标注方案,确保高质量标注结果。
4.质量管理与评估:
o建立贯穿全流程的数据质量监控与评估体系,定义核心质量指标(如完整性、准确性、一致性、时效性)。
o定期审核语料库质量,分析问题根源,持续优化处理流程与算法模型。
5.跨部门协作与项目管理:
o与AI算法团队、产品经理、业务专家紧密合作,深刻理解下游应用需求,确保语料库能有效支持模型训练与产品开发。
o管理语料库建设项目,制定详细计划,分配任务,跟踪进度,控制风险,确保项目按时、按质、按量交付。
任职要求
1.必备条件:
o学历与经验:计算机科学、软件工程、数据科学或相关理工科专业硕士及以上学历,5年以上大规模数据工程、知识图谱构建或相关领域经验。有工业领域(如高端制造、能源、自动化)项目背景者优先。
2.优先考虑:
o领域知识:对您所列出的至少2-3个工业领域(如机械、电气、自动化、材料、能源)有基础知识或强烈学习兴趣。熟悉ISO、IEC、ASTM等标准体系者尤佳。
o语言能力:具备优秀的英文技术文献阅读能力。