岗位职责:
1、负责AI训练数据的全流程管理:清洗、标注、增强、版本控制及质量评估;
2、负责多模态训练数据(文本、图像、语音、视频等)的采集、清洗与结构化处理,制定数据质量标准,确保数据集的多样性、代表性和合规性;
3、开发自动化工具或脚本(如Python/Pandas)处理大规模数据,解决噪声过滤、重复数据删除、格式统一等问题;
4、设计数据标注规则与流程,确保标注结果的一致性与准确性(如实体识别、语义分割、意图分类等任务);
5、通过应用数据增强技术(如文本扩写、图像变换、对抗生成)提升数据量级与多样性,优化模型泛化能力;
6、设计数据标注规则与SOP,搭建自动化数据处理Pipeline;
7、开发数据合成工具(如基于Diffusion模型生成图像数据);
8、保障数据安全合规,制定隐私脱敏与版权管理策略。
任职要求:
1、计算机/统计学相关专业本科以上学历,2年以上数据工程经验;
2、精通Python/SQL,熟练使用数据处理库(如Pandas、NumPy)及分布式计算工具(Spark、Dask)。
3、熟悉主流标注工具(Label Studio/CVAT)及数据湖架构;
4、了解数据标注行业生态,熟悉GDPR/《个人信息保护法》等数据合规要求;
5、参与过大模型预训练数据建设(如RedPajama/The Pile);
6、熟悉房地产业务场景的数据特点与标注规范者优先。