职位描述
岗位职责:
1.负责互联网数据爬取、清洗、存储及解析工作,确保数据的完整性和准确性。
2.设计并优化分布式爬虫架构,提高爬取效率与稳定性,降低反爬风险。
3.研究并破解目标网站的反爬策略,采用动态渲染、代理池等方式提升爬虫成功率,
4.监控并维护已有爬虫系统,及时响应异常情况,确保系统稳定运行。
任职要求:
1.计算机相关专业,本科及以上学历,具备扎实的计
算机基础,熟悉常见数据结构与算法。
2.精通 Python 及爬虫框架(如 Scrapy、
Selenium、Playwright、BeautifulSoup.
Requests)
3.熟悉反爬机制,掌握 User-Agent 伪装、代理池.
验证码破解、动态加载解析(如 Puppeteer、
Pyppeteer)等技巧。
4.具备一定的分布式爬虫开发经验,了解Kafka.RabbitMQ、Celery、Scrapy-Redis等分布式任务调用。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕