「合肥蜀山区爬虫与数据处理工程师-合肥招聘」

职位详情

爬虫与数据处理工程师-合肥

6000-10000元

新宇智慧

合肥

3-5年

本科

03-02

工作地址

合肥创新创业园-13栋

职位描述

核心职责：
海外全媒体数据采集：负责 YouTube、TikTok、Reddit、Spotify 等海外平台文本、图片、音视频数据的自动化抓取与下载，保障海量数据高效采集；
多模态数据处理：运用主流 AI 模型 / 工具库完成原始数据格式转换、采样、抽帧及特征提取；
数据清洗与过滤：开发高效算法剔除无效、低质、重复数据（如静音视频检测、模糊图片剔除、文本去噪）；
自动化标注支撑：按业务需求完成数据预标注 / 结构化处理（语音转文字、视频场景分割、文本情感打分），输出高质量训练语料；
数据存储与索引：关联结构化数据与多媒体文件，落地至向量数据库 / 分布式存储系统。
任职要求：
核心技术能力：精通 Python 异步编程（asyncio/aiohttp），可支撑海量多媒体文件并发下载；熟练使用 Playwright/Puppeteer 抓取高动态音视频流媒体页面；
多媒体处理（重点）：
熟练运用 FFmpeg（命令行 / Python 绑定）实现视频抽帧、转码、音频提取、时长裁剪；
熟悉 Pillow/OpenCV，能完成图像去噪、缩放、格式校验、相似度比对；
掌握正则 / LangChain/spaCy/NLTK 等工具处理多语言文本（去 HTML 标签、特殊字符清洗），了解 VAD（静音检测）、OCR（字幕识别）、ASR（语音转文字）相关模型应用；
模型与工程化：有调用 OpenAI API、Hugging Face 开源模型（Whisper/CLIP）进行数据预处理 / 自动标记经验；熟悉数据流处理逻辑，可设计 Celery+Redis 任务队列处理耗时多媒体任务；
存储管理：熟悉 S3 / 阿里云 OSS 等对象存储使用，了解 Milvus/Pinecone 等向量数据库基本概念，或有海量元数据结构化存储经验。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕