职位描述
职位描述
1、数据战略与挖掘: 深入理解业务需求,调研、识别并评估可用于3D AI训练的高价值数据源(如公开3D模型库、设计社区、电商平台、视频等)。
2、系统设计与开发: 设计、开发并维护稳定、高效、可扩展的分布式数据爬虫系统,能够应对各种复杂的反爬策略和海量数据抓取任务。
3、数据处理与清洗: 对抓取的多模态数据进行清洗、去重、标注、格式化,构建高质量的3D训练数据集,确保数据的合规性与可用性。
4、技术攻坚: 解决爬取过程中遇到的各种技术挑战,包括但不限于动态渲染(JS)、验证码识别、IP封禁、API限制等。
5、质量与效率: 建立数据质量监控体系,持续优化爬虫策略和系统架构,提升数据采集的覆盖度、新鲜度和效率。
6、合规与伦理: 严格遵守Robots协议、数据安全法与版权法规,确保所有数据采集活动的合法合规性。
任职要求:
1、精通 Python 编程语言,熟练掌握 Scrapy, Requests, BeautifulSoup, Selenium/Playwright 等主流爬虫框架和工具。
2、深刻理解HTTP/HTTPS协议,熟悉Web前端技术(HTML, CSS, JavaScript)。
3、具备处理复杂反爬机制(如IP速率限制、用户行为检测、加密参数等)的实战经验。
4、熟悉至少一种数据库(如 MySQL, PostgreSQL, MongoDB, Redis)。
5、具备优秀的数据清洗和处理能力,熟悉 Pandas, NumPy 等工具。
6、了解分布式爬虫原理,有使用 Scrapy-Redis, Celery 等工具的经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕