「北京海淀区大模型数据工程师招聘」_2025年北京国图创新文化服务有限公司招聘-智联招聘

职位详情

大模型数据工程师

1-2万

北京国图创新文化服务有限公司

北京

3-5年

硕士

11-20

工作地址

北京市海淀区中关村南大街33号国家图书馆

职位描述

岗位职责：

1. 大模型开发与优化：进行古籍大模型的训练、微调与优化，具体需攻克的技术难点包括：针对复杂版面的OCR识别技术、古籍文本的自动标点断句、繁简转换及命名实体识别等。

2. 编写Python代码，处理古籍的文本数据（包括HTML和TXT文件格式），进行数据清洗与预处理。批量添加古籍文献中的标点符号、标题和分段结构，确保文献的规范化、结构化和易于后续处理。

3. 参与对古籍文本和图像的自动化处理工作，特别是对古籍的排版、目录、章节划分等方面的批量修改与整理。

4. 对古籍数据进行编码与格式转换，确保数据的可重复使用性与可扩展性。

5. 协助优化数据处理流程，提高文本数据清洗、整理和上传的效率。

6. 技术探索与创新：持续追踪人工智能与数字人文领域的前沿技术，并探索其在古籍数字化中的应用场景。

任职要求：

【严格遵守行业相关保密要求】

1. 专业背景：

硕士及以上学历，在计算机科学、人工智能、古典文献学、历史文献学、数字人文等相关领域有扎实的背景。

2. 技术能力：

精通大语言模型的原理，并有相关的搭建、训练及微调经验；

熟悉OCR技术，特别是针对古籍等非规则版面的文字识别；

熟练掌握Python等编程语言及主流深度学习框架。

（可选）具备扎实的古文献学基础，熟悉古籍的版本、目录与校勘知识。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕

北京国图创新文化服务有限公司

广播/影视,广告/营销,贸易/进出口,互联网

20-99人 | 国企

为您推荐更多相似职位

2-3万

北京本科

1.5-2万

北京大专

1.5-2.2万

北京大专

1.2-2万·13薪

北京硕士

1.2-1.3万

北京本科

1.5-2万

北京本科

周边城市

立即申请

工作地址

职位描述

职位福利

北京国图创新文化服务有限公司