7000-12000元
时代8号(东大街芷泉段)602-605
岗位职责:
1. 设计并实施多模态(文本/图像/音频/视频)数据采集方案,覆盖公开数据集、网络爬取、合作方数据及定制化采集场景
2. 开发自动化数据处理流水线,包括清洗、标注、增强、质量验证等环节,支持计算机视觉/NLP/语音等AI模型训练需求
3. 构建数据质量评估体系,设计异常检测与自动修正机制,确保数据合规性
4. 优化数据存储与检索架构,处理PB级非结构化数据,平衡成本与访问效率
5. 与算法团队协作,根据模型表现反推数据缺陷,迭代改进数据策略
核心要求:
计算机相关本科以上学历,3年以上数据工程经验
技术栈必备:
数据处理:Python(Pandas/Numpy)、SQL、Spark,熟悉正则表达式与ETL设计模式
数据采集:Scrapy/Selenium/API集成,反爬应对经验
标注工具:Prodigy/CVAT/Label Studio二次开发能力
云平台:AWS S3/EC2或同类服务的数据管道搭建
加分项:
熟悉Active Learning/弱监督数据标注方法
有传感器数据(LiDAR/雷达等)处理经验
了解数据众包平台质量管理机制
计算机视觉/NLP领域数据处理专长
软性要求:
能快速理解业务场景的数据需求,提出成本/质量/时效平衡的解决方案
对数据偏见和标注歧义有敏锐洞察力
具备技术文档撰写能力,可制定数据标准操作流程(SOP)
优先考虑:
有自动驾驶/医疗影像/多语言NLP等垂直领域数据处理经验
主导过从0到1的大规模数据基础设施建设项目
发表过数据质量相关论文或开源工具贡献者
我们提供:
参与国际级AI项目的数据体系建设
技术决策权与弹性工作制度
数据工程专项培训预算
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕