职位详情
数据工程师 已下线
1.8-3.5万
杭州了不起科技有限责任公司
杭州
3-5年
本科
08-06
工作地址

杭州市-滨江区-滨兴路1866号

职位描述

主要职责

1、数据采集与爬取:

- 设计、开发和维护高效、稳定的网络爬虫程序,用于从全球各司法管辖区的政府网站、法院公开系统、法律数据库、新闻媒体及专业法律服务平台等多种来源,批量采集法律法规(如法典、条例、实施细则等)、判例文书(如判决书、裁定书、调解书等)、法律解释、学术论文、法律新闻等文本数据。

- 处理反爬机制,确保数据采集的合规性和持续性。

- 监控数据源变化,及时调整和优化爬虫策略。

2、数据清洗与预处理:

- 对采集到的原始非结构化数据进行深度清洗,包括但不限于去重、格式统一、乱码处理、敏感信息匿名化/脱敏等。

- 应用自然语言处理 (NLP) 技术(如分词、词性标注、命名实体识别、句法分析等)对文本数据进行初步处理。

3、数据结构化与建模:

- 根据法规数据的特点和LLM应用需求,设计并实现合理的数据模型和结构化方案,将非结构化文本转化为规范化的、可机器读取和理解的结构化数据(如JSON, XML, 关系型数据库表等)。

- 识别并提取法律文本中的关键信息,例如案件要素、法律条款引用、判决结果、时间地点等。

3、数据质量与管理:

- 建立并执行严格的数据质量控制流程和标准,确保数据的准确性、完整性、一致性和时效性。

- 开发自动化工具和脚本,用于数据质量校验、错误检测和修复。

- 管理和维护数据存储系统,确保数据安全和可访问性。

4、知识库构建与集成:

- 使用向量数据库和知识图片建立知识库,利于RAG技术的实施。

- 设计和实现支持复杂语义搜索的数据索引和检索方案,以提升LLM对法律知识的理解和应用能力。

- 持续优化知识库的数据组织和更新机制。

任职要求

1、技术经验:

- 至少3年数据工程、大数据开发或相关领域的工作经验。

- 精通至少一种主流编程语言,如Python (必备,拥有丰富的爬虫库如Scrapy, BeautifulSoup, Selenium使用经验)。

- 熟练掌握关系型数据库(如MySQL, PostgreSQL)和NoSQL数据库(如MongoDB, Elasticsearch)以及向量数据库(如Chroma、Weaviate、Milvus、Qdrant)的设计、开发和优化。

- 了解信息检索技术和搜索引擎原理(如Elasticsearch, Solr)者优先。

- 有构建知识图谱或语义搜索系统经验者优先。

2、数据素养:

- 对数据清洗、转换、加载 (ETL) 流程有深入理解和实践经验。

- 具备卓越的数据敏感性和数据质量意识。

- 能够独立分析复杂数据问题并提出解决方案。

3、领域知识(加分项):

- 对法规领域、法律文本结构有基本了解者优先。

- 有法律背景或对法律大数据感兴趣者优先。

4、软技能:

- 优秀的学习能力、问题解决能力和创新思维。

- 严谨细致,责任心强,具备良好的团队合作精神和沟通能力。

- 具备自主研究和学习新技术的意愿和能力。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

查看更多相似职位