「上海徐汇区工业语料/数据工程师招聘」_2026年壹珈智晟(上海)科技有限公司招聘-智联招聘

职位详情

工业语料/数据工程师

2-4万

壹珈智晟(上海)科技有限公司

上海

3-5年

硕士

01-23

工作地址

上海科学智能研究院

职位描述

职位信息

负责领导并构建一个覆盖全球标准、技术文献、专利、教材、政策法规及行业数据的超大规模、多语言工业知识语料库。您将定义数据标准，为下一代工业AI大模型和知识图谱提供坚实、高质量的数据基石。这是一个极具挑战性且对公司核心数据战略至关重要的岗位。
核心职责
1.语料规划：
o根据业务目标（如训练垂直行业大模型、构建知识库），制定涵盖所有给定数据类别（标准、文献、专利、教材、政策、数据等）的全面语料库建设路线图与技术架构。
o设计支持多源（PDF、文本、图像、视频、数据库）、多语言（中/英）、多模态数据的高效处理与存储方案。
o建立并持续优化语料数据的质量标准、分类体系和元数据规范。
2.数据采集与获取：
o规划并实施从公开数据库（如各国专利局、IEEE Xplore、NIST、各标准组织）、学术出版商、行业协会、商业数据提供商等渠道获取数据的技术方案。
o负责与数据供应商谈判、采购合法合规的数据授权，管理数据使用许可。
o开发或管理网络爬虫与API集成工具，安全、合规、高效地获取数据。
3.数据处理与加工流水线构建：
o主导搭建自动化、工业级的语料数据处理流水线，覆盖以下关键环节：
文本提取与解析：精通处理海量PDF（扫描版/数字版）、Word等格式文档，应用OCR、版面分析等技术实现高精度文本与结构化信息（如标题、作者、图表标题）提取。
多语言处理：实施专业领域机器翻译、术语对齐和语言质量控制流程。
数据清洗与标准化：设计并应用规则与模型，对文本进行去重、格式化、错误纠正、专业术语归一化。
信息结构化：针对专利、标准、论文等特定类型数据，提取关键字段（如IPC分类号、标准号、DOI、摘要、权利要求、章节标题等）。
非结构化数据标注：为图像（如缺陷检测、CAD图纸）、视频（如操作过程）等数据集设计并管理标注方案，确保高质量标注结果。
4.质量管理与评估：
o建立贯穿全流程的数据质量监控与评估体系，定义核心质量指标（如完整性、准确性、一致性、时效性）。
o定期审核语料库质量，分析问题根源，持续优化处理流程与算法模型。
5.跨部门协作与项目管理：
o与AI算法团队、产品经理、业务专家紧密合作，深刻理解下游应用需求，确保语料库能有效支持模型训练与产品开发。
o管理语料库建设项目，制定详细计划，分配任务，跟踪进度，控制风险，确保项目按时、按质、按量交付。
任职要求
1.必备条件：
o学历与经验：计算机科学、软件工程、数据科学或相关理工科专业硕士及以上学历，5年以上大规模数据工程、知识图谱构建或相关领域经验。有工业领域（如高端制造、能源、自动化）项目背景者优先。
2.优先考虑：
o领域知识：对您所列出的至少2-3个工业领域（如机械、电气、自动化、材料、能源）有基础知识或强烈学习兴趣。熟悉ISO、IEC、ASTM等标准体系者尤佳。
o语言能力：具备优秀的英文技术文献阅读能力。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕