职位详情
大模型数据算法
2.5-3万
阳光智园科技有限公司
北京
5-10年
本科
01-26
工作地址

启明国际大厦-A座11层

职位描述
核⼼职责
1. 对接业务部⻔与开发团队的数据需求(如⼤模型微调数据、Agent系统的⼯具调⽤数据、RAG系统的⽂档库建
设与更新需求等),提供数据治理⽀持(如⽂档格式标准化、⽂本清洗去重、向量数据元数据管理),并设计
⽂本分块算法、优化Embedding算法,实现向量检索算法,设计相似度计算算法等。并熟悉常⽤NLP算法
2. 向量数据需求对接(向量维度、检索性能、存储容量需求),提供向量数据API服务(向量插⼊、查询、更
新、删除接⼝),实现向量数据同步(⽂档更新时向量⾃动更新、增量同步),优化向量检索性能(索引优
化、查询优化、并发优化);
3. 设计知识图谱(实体建模、关系建模、属性定义、Schema设计等),构建Neo4j图数据库(节点创建、关系
创建、索引优化、约束设置),编写Cypher查询语句(MATCH查询、CREATE创建、MERGE合并、路径查
询),实现图谱数据导⼊(批量导⼊、增量更新、数据清洗、关系验证),优化图查询性能(索引优化、查询
重写、缓存策略、分⻚查询),实现图谱推理算法(路径查询、关系推理、⼦图匹配、图遍历);
4. ⽂档解析(PDF/Word/Excel解析、OCR⽂本识别、表格提取),实现⽂本预处理算法(分词、停⽤词过滤、
词⼲提取、标准化),设计信息抽取算法(实体识别、关系抽取、关键词提取),构建数据转换算法(格式转
换、编码转换、结构化处理),实现实体对⻬算法(字符串匹配、语义匹配、属性匹配、消歧算法),开发关
系抽取算法(规则抽取、模式匹配、统计抽取、深度学习抽取);
5. 元数据治理与语义建模: 为 ChatBI 构建⾼质量的语义映射库(Data Catalog);负责库表注释、指标⼝径、
维度枚举值的标准化清洗,确保⼤模型能“读懂”数据库字段的业务含义;
6. Text-to-SQL 准确率优化: 研发 Few-shot 示例选择算法,根据⽤户问题⾃动检索最相似的 SQL 样例
(NL2SQL Prompt Engineering);构建业务专有的 SQL 微调数据集
7. 具备扎实的 Java 后端开发基础,熟悉 Spring Boot ⽣态及常⽤中间件;
8. 能够熟练使⽤ Java 操作⼤数据与 AI 存储组件**(如 ES、Milvus、Neo4j),具备处理千万级以上数据量的⼯
程经验;
9. 熟悉数据中台架构,有能⼒将 Python 侧的算法逻辑转化为稳定运⾏的 Java ⽣产级代码。
任职要求
1. 学历与专业:本科及以上学历,计算机科学、软件⼯程、⼈⼯智能等相关专业;
2. 有 2-3 年⼯作经验者优先:需有结合 Prompt+Agent+RAG 的实际应⽤落地案例(如开发带 RAG / KG 的智能
Agent),能独⽴负责应⽤从需求拆解到上线的完整流程;

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请