职位描述
岗位定位
负责面向大模型(LLM)应用的知识库数据基础设施建设:覆盖原始语料采集、清洗、向量化、存储、检索链路到质量评估的全流程。
核心职责
语料采集与合规
• 通过爬虫、开源数据集、API、OCR 等渠道获取多模态/多语言原始数据;
• 建立版权、隐私、合规过滤机制,完成脱敏与授权链路。
数据预处理与增强
• 设计并实施文本/表格/图片的去重、去噪、分段、归一化、结构化;
• 利用正则、NLP 工具(spaCy、jieba、transformers)、LLM Self-Instruct 进行数据增强与合成。
知识切片与向量化
• 根据业务场景制定 chunk 策略(长度、重叠、语义完整性);
存储与索引优化
• 调研并实现向量数据库(Milvus/FAISS/Pinecone/Qdrant)+ 传统检索(ES/Solr)混合检索;
• 设计多级索引(IVF、HNSW)、冷热分级存储及实时增量更新方案。
数据质量与评估
• 建立覆盖“完整性、一致性、多样性、时效性”的数据质量指标体系;
• 开发自动评估脚本(困惑度、BLEU、RRF、Hit Rate、MRR)与可视化报表。
全流程工程化
• 搭建 DataOps / LLMOps Pipeline(Airflow/Kubeflow/Spark),实现“数据变更 → 重新向量化 → 回归测试”一键化;
• 与算法、产品、法务团队协作,将知识库接入 RAG、Agent、微调等下游任务。
任职要求
硬性条件
• 计算机/数学/AI 相关专业,本科及以上学历,2 年以上 NLP 或大数据开发经验;
• 精通 Python,熟练使用 Pandas/PySpark/SQL/正则,掌握至少一种大数据框架(Spark/Flink/Ray);
• 深入理解 Transformer、Embedding、RAG 原理,具备向量数据库或知识图谱落地经验;
• 熟悉 Linux、Docker、Git,具备脚本自动化与任务调度能力。
加分项
• 有 Prompt Engineering、LLM 微调(LoRA/QLoRA)经验;
• 熟悉多模态处理、图数据库;
• 参与过行业知识库(法律、医疗、金融、制造等)项目;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕