职位详情
数据工程(RAG)工程师(计算机人工智能专业应届)
150-200元/天
森纵艾数(北京)科技有限公司
北京
本科
11-10
工作地址

联合大厦1305

职位描述
agent课程实验内容生成方向,诚招计算机人工智能应届本科硕士。

一句话使命:把“教材/课件/作业/案例库”等异构内容,转化为可检索、可追溯、可评测的知识底座,支撑可信引用与课堂实操。
主要职责
1. 设计并实现课程私有库的数据管线:采集→清洗→解析→分块→索引→评测→上线→监控。
2. 建立混合检索方案(BM25 + 向量/稀疏表示),并按课程类型调优分块与召回策略。
3. 集成与优化重排/Rerank与引用抽取(chunk/page锚点、引用链可视化)。
4. 建立RAG评测集与指标:召回率/精准率、NDCG@k、引用覆盖率、答案“基于证据”分。
5. 与AI后端协作实现RAG服务API(检索、重排、证据压缩、上下文编排)与灰度治理。
6. 针对学术场景优化长文档/多模态(PDF/Docx/PPT/表格/代码)解析与OCR纠错。
7. 数据分级、访问控制、PII脱敏与审计留痕;沉淀数据字典与版本化策略。
8. 与教研Owner共建“可信引用规范”与Rubric对齐的证据呈现。
任职要求
● 精通一种后端语言(Python/Go),熟悉FastAPI/Go-Kit、消息队列、向量数据库(Milvus/Qdrant/PGVector/FAISS)。
● 深入理解RAG链路:分块策略(递归、语义、结构化段落)、embedding与检索优化、重排模型(如bge-reranker等)的选型与部署。
● 熟悉混合检索与稀疏表示(BM25/SPLADE等),会做A/B评测与统计显著性验证。
● 有生产级数据管线经验(Airflow/Argo/Kafka),可观测性(日志/链路/指标)。
● 能以工程手段降低幻觉:基于证据回答、引文完整度、置信度阈值与拒答策略。
● 价值观匹配:客户第一、求真务实;能以实证驱动迭代,不空谈“玄学提示”。
加分项:教育/学术场景经验;中英双语/多语检索;表格/公式/代码类文档解析;向量检索在K8s上的弹性与成本优化。
工具栈建议
Python/FastAPI、Milvus/Qdrant/PGVector、Elasticsearch/Lucene、bge-m3等向量模型、bge-reranker/ColBERT类重排、Airflow/Argo、Kafka、K8s、Prometheus/Grafana、Great Expectations(数据质量)。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请