工作内容:
负责项目所需训练数据的采集、清洗、去噪增强与标注;
构建支持模型训练的多模态数据处理流水线;
搭建数据集版本管理体系,支持不同模型任务的数据复用;
协助进行数据探索分析、样本分布建模与数据增广;
推动数据采集和使用流程的安全合规策略落地。
岗位要求:
熟悉各类型数据特点,掌握数据分析与处理技术(SQL、Spark、Flink等;
熟悉图像、文本、结构化数据的清洗与ETL流程;
掌握数据质量管理、数据探索分析和版本控制工具;
掌握异构数据融合、格式标准化、标签处理等技术;
了解数据安全、脱敏、权限控制机制;
具备5年以上相关工作经验,主持过AI数据治理、数据平台或复杂多模态数据处理项目;