职位详情
大模型数据工程师
1-2万
北京国图创新文化服务有限公司
北京
3-5年
硕士
11-20
工作地址

北京市海淀区中关村南大街33号国家图书馆

职位描述

岗位职责:

1. 大模型开发与优化:进行古籍大模型的训练、微调与优化,具体需攻克的技术难点包括:针对复杂版面的OCR识别技术、古籍文本的自动标点断句、繁简转换及命名实体识别等。

2. 编写Python代码,处理古籍的文本数据(包括HTML和TXT文件格式),进行数据清洗与预处理。批量添加古籍文献中的标点符号、标题和分段结构,确保文献的规范化、结构化和易于后续处理。

3. 参与对古籍文本和图像的自动化处理工作,特别是对古籍的排版、目录、章节划分等方面的批量修改与整理。

4. 对古籍数据进行编码与格式转换,确保数据的可重复使用性与可扩展性。

5. 协助优化数据处理流程,提高文本数据清洗、整理和上传的效率。

6. 技术探索与创新:持续追踪人工智能与数字人文领域的前沿技术,并探索其在古籍数字化中的应用场景。


任职要求:

【严格遵守行业相关保密要求】

1. 专业背景:

硕士及以上学历,在计算机科学、人工智能、古典文献学、历史文献学、数字人文等相关领域有扎实的背景。

2. 技术能力:

精通大语言模型的原理,并有相关的搭建、训练及微调经验;

熟悉OCR技术,特别是针对古籍等非规则版面的文字识别;

熟练掌握Python等编程语言及主流深度学习框架。

(可选)具备扎实的古文献学基础,熟悉古籍的版本、目录与校勘知识。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请