职位描述
核心职责:
海外全媒体数据采集:负责 YouTube、TikTok、Reddit、Spotify 等海外平台文本、图片、音视频数据的自动化抓取与下载,保障海量数据高效采集;
多模态数据处理:运用主流 AI 模型 / 工具库完成原始数据格式转换、采样、抽帧及特征提取;
数据清洗与过滤:开发高效算法剔除无效、低质、重复数据(如静音视频检测、模糊图片剔除、文本去噪);
自动化标注支撑:按业务需求完成数据预标注 / 结构化处理(语音转文字、视频场景分割、文本情感打分),输出高质量训练语料;
数据存储与索引:关联结构化数据与多媒体文件,落地至向量数据库 / 分布式存储系统。
任职要求:
核心技术能力:精通 Python 异步编程(asyncio/aiohttp),可支撑海量多媒体文件并发下载;熟练使用 Playwright/Puppeteer 抓取高动态音视频流媒体页面;
多媒体处理(重点):
熟练运用 FFmpeg(命令行 / Python 绑定)实现视频抽帧、转码、音频提取、时长裁剪;
熟悉 Pillow/OpenCV,能完成图像去噪、缩放、格式校验、相似度比对;
掌握正则 / LangChain/spaCy/NLTK 等工具处理多语言文本(去 HTML 标签、特殊字符清洗),了解 VAD(静音检测)、OCR(字幕识别)、ASR(语音转文字)相关模型应用;
模型与工程化:有调用 OpenAI API、Hugging Face 开源模型(Whisper/CLIP)进行数据预处理 / 自动标记经验;熟悉数据流处理逻辑,可设计 Celery+Redis 任务队列处理耗时多媒体任务;
存储管理:熟悉 S3 / 阿里云 OSS 等对象存储使用,了解 Milvus/Pinecone 等向量数据库基本概念,或有海量元数据结构化存储经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕