岗位职责:
1.统筹公司人工智能数据资产(图像、文本、语音、视频、多模态等)的样本集规划、采集、标注、质检、版本管理与生命周期治理,建立覆盖原始数据→标注数据→训练数据→评测数据的端到端闭环流程。
2.制定并持续优化数据质量、安全、合规与成本指标体系,通过自动化质检脚本、统计抽样、众包/外包管理、AIGC辅助标注等手段,确保样本集满足算法迭代与业务上线的高标准需求。
3.建设数据可视化与洞察平台,对样本分布、标注质量、使用热度、合规风险等进行多维度监控与预警。
4.完成公司交办的其他工作任务。
任职要求:
1.工作经验:具有3年以上AI数据工程或数据集管理核心岗位经验优先,独立负责过至少1个千万级样本规模的多模态数据集从0到1的建设与持续运营优先。
2.能力要求:
(1)熟悉Git-LFS、DVC、DeltaLake或HuggingFacedatasets等数据版本管理方案;
(2)熟悉数据标注流程与质量控制体系,熟练运用LabelStudio、CVAT、Prodigy、ScaleAI、AmazonSageMakerGroundTruth等平台;
(3)熟悉自动化质检(IoU、一致性检验、黄金集、交叉验证等);
(4)熟悉数据合规与隐私保护,了解GDPR、CCPA、《个人信息保护法》等国内外法规,掌握数据脱敏、差分隐私、联邦学习、可信执行环境(TEE)等落地方法。