职位描述
岗位职责
一、NL2SQL 体系建设
1、负责 NL2SQL 的语义解析、槽位抽取、Schema 对齐、SQL 生成与校验、口径解释(Explain)等全链路能力建设。
2、建设受控解析(Controlled NL Parser)与可解释查询:时间口径、状态口径、分组维度、指标计算方式、排序/TopN 等策略统一。
3、结合业务数据治理:字段字典、枚举映射、权限/RBAC、脱敏策略、查询安全(限流/黑白名单/SQL 审计)等。
二、RAG/知识库能力(LangChain / LightRAG)
1、搭建知识库问答链路:文档解析、清洗、切块(chunking)、向量化、召回、Rerank、引用与溯源。
2、深度理解并可改造 LangChain / LightRAG:自定义 Retriever、工具调用、Memory、Agent/Workflow 编排与评测。
3、支持多源文档:PDF/Word/Excel/网页,重点处理版面分析(布局识别、表格/标题层级/段落结构)提升检索与回答准确率。
三、语义挖掘与数据挖掘
1、对业务文本进行结构化抽取(实体/事件/关系),进行聚类、热点发现、趋势分析、异常检测等数据挖掘任务。
2、设计数据闭环:采样/标注/评测/迭代,推动指标持续提升(准确率、召回率、SQL 执行成功率、RAG 命中率等)。
四、多模态与大模型训练/微调
1、参与大模型/多模态模型训练与调优:SFT/对齐、指令数据构建、评测集设计、推理加速与部署。
2、能将多模态能力与业务结合:图文理解、版面理解、图表/表格信息抽取等。
五、语音链路与数字人(可选但优先)
1、熟悉 ASR/TTS 的接入、优化与工程化:实时流式识别、端到端延迟优化、标点/热词、音色与播报策略。
2、有数字人/虚拟人项目经验:语音驱动、口型对齐、对话系统接入(工具调用/NL2SQL/RAG)、实时交互链路。
六、平台化与工程落地
1、将上述能力服务化:API 设计、权限控制、日志监控、灰度发布、A/B 测试、成本与性能优化
2、推进 Agent/流程编排落地:根据业务场景拆解任务、选择工具、完成端到端闭环。
任职要求(必须项)
1、本科及以上学历,计算机/数据科学/人工智能相关专业,3 年及以上相关经验(能力强可放宽)。
2、熟练使用 Python,具备良好工程能力,能独立完成从原型到上线的落地。
3、深度理解 NL2SQL:语义解析、Schema 对齐、SQL 生成策略、执行校验/纠错、口径解释等至少 2 个模块有实战经验。
4、RAG/知识库实战经验:了解 chunking 策略、向量召回、Rerank、引用溯源、评测与效果提升方法。
5、具备数据分析/数据挖掘能力:能围绕业务构建指标体系、定位问题、形成迭代闭环。
加分项(优先考虑)
1、熟练使用或深度改造 LangChain / LightRAG / 类 Agent 框架,并有工具调用/流程编排实践。
2、版面分析/文档理解经验:PDF layout、表格结构化、标题层级抽取、OCR + 结构恢复等。
3、大模型训练经验:SFT、指令数据构建、评测体系、推理优化(vLLM/并发/缓存/长上下文优化)。
4、ASR/TTS 或数字人项目经验:实时语音对话、多轮交互、低延迟链路优化。
5、了解向量库/检索系统:Milvus/Faiss/pgvector/ES 向量等;了解 GraphRAG / LightRAG 的图谱化增强思路。
6、熟悉常见中间件与部署:Docker、Linux、Redis、MySQL、消息队列(Kafka/RabbitMQ)、WebSocket/流式接口等。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕