「合肥蜀山区急招爬虫与数据处理工程师，双休团队氛围好招聘」

职位详情

急招爬虫与数据处理工程师，双休团队氛围好

8000-10000元

新宇智慧

合肥

1-3年

不限

03-02

工作地址

合肥创新创业园0

职位描述

岗位职责
1. 全媒体采集：负责海外平台（如 YouTube, TikTok, Reddit, Spotify 等）的文本、图片、音、视频数据的抓取与自动化下载。
2. 多模态数据处理：利用主流 AI 模型或工具库，对抓取的原始数据进行格式转换、采样、抽帧及特征提取。
3. 数据清洗与过滤：编写高效的过滤算法，剔除无效、低质或重复数据（如静音视频检测、模糊图片剔除、文本去噪）。
4. 自动化标注支撑：根据业务需求，对数据进行预标注或结构化处理（如语音转文字、视频场景分割、文本情感打分），为后续模型训练提供高质量语料。
5. 存储与索引：将处理后的结构化数据与多媒体文件关联，并存储至向量数据库或分布式存储系统。
任职要求工作经验2-3年，学历不限
1. 核心抓取与异步能力
高效采集：精通 Python 异步编程（asyncio, aiohttp），能应对海量多媒体文件的并发下载需求。
模拟与渲染：熟练使用 Playwright 或 Puppeteer 抓取高度动态化的音视频流媒体页面。
2. 多媒体处理技术（重点）
音视频工具：熟练使用 FFmpeg（命令行或 Python 绑定），实现视频抽帧、转码、音频提取、时长裁剪等操作。
图像处理：熟悉 Pillow 或 OpenCV，能进行基础的图像去噪、缩放、格式校验及相似度比对。
数据标注与过滤：
文本：熟悉正则、LangChain 或简单的 NLP 工具（如 spaCy, NLTK），能处理多语言编码、清洗 HTML 标签及特殊字符。
音视频：了解如何利用现成模型进行 VAD（静音检测）、OCR（字幕识别）或 ASR（语音转文字）。
3. 模型调用与工程化
模型集成：有调用 OpenAI API、Hugging Face 开源模型（如 Whisper, CLIP）进行数据预处理或自动标记的经验。
数据管线：熟悉常用的数据流处理逻辑，能设计简单的任务队列（如 Celery + Redis）来处理耗时的多媒体任务。
4. 存储与管理
熟悉 S3 / 阿里云 OSS 等对象存储的使用。
了解向量数据库（如 Milvus, Pinecone）的基本概念，或有结构化存储海量元数据的经验。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕