职位详情
数据工程师(LLM数据标注与平台搭建方向)
5000-8000元
重庆清研理工汽车智能技术研究院有限公司
重庆
5-10年
本科
12-16
工作地址

重庆理工大学国家大学科技园

职位描述

一、岗位职责

• 负责LLM相关数据的格式标注工作,制定标注规范与质量校验标准,保障标注数据的准确性、一致性,支撑大模型训练、微调及优化场景的数据需求。

• 基于Java技术栈搭建及迭代数据平台,涵盖数据采集、清洗、存储、标注流转、检索等核心模块,实现数据处理全流程的自动化与高效化。

• 参与数据平台的架构设计与技术选型,解决平台运行中的高可用、高性能问题,保障海量LLM标注数据的稳定处理与安全存储。

• 协同算法团队梳理数据需求,优化标注流程与数据处理链路,提升数据交付效率,助力大模型在相关业务场景的落地应用。

• 负责数据平台相关文档的编写与维护,包括技术设计文档、操作手册、标注规范文档等,保障团队协作顺畅。

二、核心技术能力

1. LLM数据标注能力

精通LLM相关数据的格式标注规则,熟悉常见LLM数据类型(如对话生成、文本分类、信息抽取、prompt工程、知识库问答等)的标注方法;熟练使用LabelStudio等主流数据标注工具,具备标注工具配置、流程自定义及批量标注处理的实战经验;具备标注规范制定、标注质量把控、标注问题排查的实战能力,能有效提升标注团队的工作效率与数据质量。

2. Java开发能力

具备5年以上Java开发实战经验,精通Java开发语言,熟悉JDK8及以上版本特性;深入理解面向对象编程思想,扎实掌握集合框架、多线程并发、IO流等基础技术,能熟练运用Spring、Spring Boot、MyBatis等主流开发框架进行项目开发、迭代及问题优化;具备Java项目性能调优、故障排查的丰富经验。

3. 数据平台搭建能力

具备完整的数据平台搭建实战经验,熟悉数据平台的核心架构(数据采集层、处理层、存储层、应用层);能独立完成数据采集脚本开发、数据清洗规则实现、标注流程模块搭建、数据存储方案设计(如MySQL、Redis、Hadoop等);熟练掌握RAG(检索增强生成)技术原理与落地实践,能将RAG技术融入数据平台,实现标注数据的高效检索、知识库构建及与大模型的协同应用。

4. 数据处理与工具应用

熟悉常见的数据处理工具与技术,能应对海量数据的清洗、转换、格式标准化等需求;了解数据可视化工具的使用,可实现标注数据质量、平台运行状态等关键指标的可视化展示;了解Python语言及相关数据处理库(如Pandas、Numpy)者优先。

三、任职资格

• 5年以上相关工作经验,其中包含5年以上Java开发经验及1年以上LLM数据格式标注实战经验,熟练使用LabelStudio等数据标注工具、具备RAG技术落地经验及完整数据平台搭建项目经历者优先。

• 本科及以上学历(能力突出者可放宽),计算机科学与技术、数据科学、软件工程等相关专业优先;深入理解LLM数据标注的核心价值,清楚标注数据对大模型性能的影响。

• 具备良好的问题排查能力,能快速定位并解决数据标注过程中的格式问题、平台运行中的技术故障。

• 关注数据领域与大模型相关技术趋势,具备较强的学习能力与创新意识,能积极探索数据标注与数据平台优化的新方法、新技术。

• 具备良好的沟通表达能力与跨团队协作精神,能高效配合算法、产品等团队完成工作;具备严谨的逻辑思维与文档编写能力。

四、优先条件

• 有大模型训练/微调相关数据标注项目经验,熟悉特定行业(如智能制造、金融、医疗等)LLM数据标注场景者优先。

• 熟悉分布式数据存储与计算技术(如Hadoop、Spark、Flink等),具备大数据平台搭建与优化经验者优先。

• 了解LangChain、Spring AI等大模型应用开发框架,或有数据标注工具二次开发经验者优先。

• 具备数据安全、数据脱敏相关实践经验,熟悉数据合规相关要求者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请