「北京朝阳区大模型数据算法招聘」_2026年阳光智园科技有限公司招聘-智联招聘

职位详情

大模型数据算法

2.5-3万

阳光智园科技有限公司

北京

5-10年

本科

01-26

工作地址

启明国际大厦-A座11层

职位描述

核⼼职责
1. 对接业务部⻔与开发团队的数据需求（如⼤模型微调数据、Agent系统的⼯具调⽤数据、RAG系统的⽂档库建
设与更新需求等），提供数据治理⽀持（如⽂档格式标准化、⽂本清洗去重、向量数据元数据管理），并设计
⽂本分块算法、优化Embedding算法，实现向量检索算法，设计相似度计算算法等。并熟悉常⽤NLP算法
2. 向量数据需求对接（向量维度、检索性能、存储容量需求），提供向量数据API服务（向量插⼊、查询、更
新、删除接⼝），实现向量数据同步（⽂档更新时向量⾃动更新、增量同步），优化向量检索性能（索引优
化、查询优化、并发优化）；
3. 设计知识图谱（实体建模、关系建模、属性定义、Schema设计等），构建Neo4j图数据库（节点创建、关系
创建、索引优化、约束设置），编写Cypher查询语句（MATCH查询、CREATE创建、MERGE合并、路径查
询），实现图谱数据导⼊（批量导⼊、增量更新、数据清洗、关系验证），优化图查询性能（索引优化、查询
重写、缓存策略、分⻚查询），实现图谱推理算法（路径查询、关系推理、⼦图匹配、图遍历）；
4. ⽂档解析（PDF/Word/Excel解析、OCR⽂本识别、表格提取），实现⽂本预处理算法（分词、停⽤词过滤、
词⼲提取、标准化），设计信息抽取算法（实体识别、关系抽取、关键词提取），构建数据转换算法（格式转
换、编码转换、结构化处理），实现实体对⻬算法（字符串匹配、语义匹配、属性匹配、消歧算法），开发关
系抽取算法（规则抽取、模式匹配、统计抽取、深度学习抽取）；
5. 元数据治理与语义建模：为 ChatBI 构建⾼质量的语义映射库（Data Catalog）；负责库表注释、指标⼝径、
维度枚举值的标准化清洗，确保⼤模型能“读懂”数据库字段的业务含义；
6. Text-to-SQL 准确率优化：研发 Few-shot 示例选择算法，根据⽤户问题⾃动检索最相似的 SQL 样例
（NL2SQL Prompt Engineering）；构建业务专有的 SQL 微调数据集
7. 具备扎实的 Java 后端开发基础，熟悉 Spring Boot ⽣态及常⽤中间件；
8. 能够熟练使⽤ Java 操作⼤数据与 AI 存储组件**（如 ES、Milvus、Neo4j），具备处理千万级以上数据量的⼯
程经验；
9. 熟悉数据中台架构，有能⼒将 Python 侧的算法逻辑转化为稳定运⾏的 Java ⽣产级代码。
任职要求
1. 学历与专业：本科及以上学历，计算机科学、软件⼯程、⼈⼯智能等相关专业；
2. 有 2-3 年⼯作经验者优先：需有结合 Prompt+Agent+RAG 的实际应⽤落地案例（如开发带 RAG / KG 的智能
Agent），能独⽴负责应⽤从需求拆解到上线的完整流程；

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕