职位描述
岗位职责
1. 全媒体采集:负责海外平台(如 YouTube, TikTok, Reddit, Spotify 等)的文本、图片、音、视频数据的抓取与自动化下载。
2. 多模态数据处理:利用主流 AI 模型或工具库,对抓取的原始数据进行格式转换、采样、抽帧及特征提取。
3. 数据清洗与过滤:编写高效的过滤算法,剔除无效、低质或重复数据(如静音视频检测、模糊图片剔除、文本去噪)。
4. 自动化标注支撑:根据业务需求,对数据进行预标注或结构化处理(如语音转文字、视频场景分割、文本情感打分),为后续模型训练提供高质量语料。
5. 存储与索引:将处理后的结构化数据与多媒体文件关联,并存储至向量数据库或分布式存储系统。
任职要求工作经验2-3年,学历不限
1. 核心抓取与异步能力
高效采集:精通 Python 异步编程(asyncio, aiohttp),能应对海量多媒体文件的并发下载需求。
模拟与渲染:熟练使用 Playwright 或 Puppeteer 抓取高度动态化的音视频流媒体页面。
2. 多媒体处理技术(重点)
音视频工具:熟练使用 FFmpeg(命令行或 Python 绑定),实现视频抽帧、转码、音频提取、时长裁剪等操作。
图像处理:熟悉 Pillow 或 OpenCV,能进行基础的图像去噪、缩放、格式校验及相似度比对。
数据标注与过滤:
文本:熟悉正则、LangChain 或简单的 NLP 工具(如 spaCy, NLTK),能处理多语言编码、清洗 HTML 标签及特殊字符。
音视频:了解如何利用现成模型进行 VAD(静音检测)、OCR(字幕识别) 或 ASR(语音转文字)。
3. 模型调用与工程化
模型集成:有调用 OpenAI API、Hugging Face 开源模型(如 Whisper, CLIP)进行数据预处理或自动标记的经验。
数据管线:熟悉常用的数据流处理逻辑,能设计简单的任务队列(如 Celery + Redis)来处理耗时的多媒体任务。
4. 存储与管理
熟悉 S3 / 阿里云 OSS 等对象存储的使用。
了解 向量数据库(如 Milvus, Pinecone)的基本概念,或有结构化存储海量元数据的经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕