大数据实时流计算技术高级工程师
2-3万
北京 本科
北京市海淀区中关村南大街33号国家图书馆
岗位职责:
1. 大模型开发与优化:进行古籍大模型的训练、微调与优化,具体需攻克的技术难点包括:针对复杂版面的OCR识别技术、古籍文本的自动标点断句、繁简转换及命名实体识别等。
2. 编写Python代码,处理古籍的文本数据(包括HTML和TXT文件格式),进行数据清洗与预处理。批量添加古籍文献中的标点符号、标题和分段结构,确保文献的规范化、结构化和易于后续处理。
3. 参与对古籍文本和图像的自动化处理工作,特别是对古籍的排版、目录、章节划分等方面的批量修改与整理。
4. 对古籍数据进行编码与格式转换,确保数据的可重复使用性与可扩展性。
5. 协助优化数据处理流程,提高文本数据清洗、整理和上传的效率。
6. 技术探索与创新:持续追踪人工智能与数字人文领域的前沿技术,并探索其在古籍数字化中的应用场景。
任职要求:
【严格遵守行业相关保密要求】
1. 专业背景:
硕士及以上学历,在计算机科学、人工智能、古典文献学、历史文献学、数字人文等相关领域有扎实的背景。
2. 技术能力:
精通大语言模型的原理,并有相关的搭建、训练及微调经验;
熟悉OCR技术,特别是针对古籍等非规则版面的文字识别;
熟练掌握Python等编程语言及主流深度学习框架。
(可选)具备扎实的古文献学基础,熟悉古籍的版本、目录与校勘知识。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕