岗位描述:
1. 核心数据采集与供给(占比约50%)
• 需求分析与方案设计: 深度对接算法团队,理解其对于数据规模、类型、格式和质量的深层需求,主导设计技术可行、成本可控的数据采集整体方案。
• 多源数据采集实施:
○ 公开数据源: 熟练运用爬虫技术(Web Crawling/Scraping)从公开网络、API等渠道高效、合规地获取数据。
○ 内部系统数据: 设计并实现从公司内部业务系统、日志、传感器等数据源的数据同步方案。
○ 定制化采集: 针对特定业务场景(如图像、视频、音频等),设计并推动实施软/硬件结合的定制化数据采集流程。
• 合规与质量管理: 确保所有数据采集活动遵守相关法律法规(如个人信息保护法)和网站协议,并建立采集数据的质量评估标准。
2. 数据流水线开发与处理
• 基于采集的原始数据,构建高效、稳定的数据清洗、标注、增强和特征工程流水线,为模型训练准备好“即食”数据。
• 管理和优化数据ETL/ELT过程,确保数据从采集到服务的低延迟和高可靠性。
3. 数据资产与外包管理
• 对采集和处理的各类数据进行资产化管理和归档,建立数据目录和血缘,实现数据的全生命周期管理。
• 作为技术负责人,管理与数据标注外包团队的合作,制定精准的标注规范,并严格验收其数据产出质量。
任职要求:
• 经验: 5年以上数据工程经验,其中必须有丰富的专项数据采集经验,有支撑机器学习/深度学习项目的完整数据采集案例者优先。
• 核心技术能力:
○ 数据采集专家: 必须精通Python爬虫生态(如Scrapy、Requests、Selenium等),具备处理反爬机制、大规模分布式爬取、数据解析与去重的实战能力。
○ 编程与数据加工: 熟练掌握 Python(Pandas, NumPy) 和 SQL,能够对采集到的非结构化和结构化数据进行高效处理。
○ 流水线与基础设施: 有使用 Airflow 等工具调度和监控数据采集任务的经验。熟悉 Kafka 等消息队列,了解数据采集过程中的实时流处理。
○ 数据存储: 熟悉不同类型数据(如文件、图片、JSON)的存储方案。