数据采集
160元/天
北京 学历不限
北京市-朝阳区-农光里117号劲松大厦A座北京劲松大厦A座
负责设计、开发和维护多源数据采集系统,包括网页爬虫、API接口调用、日志采集等。
针对结构化/非结构化数据(如文本、图片、视频等)设计高效采集方案,确保数据质量和时效性。
解决数据采集过程中的反爬机制(如验证码、IP封禁、动态加密等),优化采集效率与稳定性。
与数据清洗、存储、分析团队协作,构建完整的数据流水线(Data Pipeline)。
监控采集任务运行状态,及时处理异常并优化系统性能。
研究新兴数据采集技术(如分布式爬虫、智能解析等),提升团队技术能力。
本科及以上学历,熟练掌握Python/Java/Go等至少一门编程语言,有Scrapy、BeautifulSoup、Selenium等爬虫框架开发经验。
熟悉HTTP/HTTPS协议、WebSocket、Restful API等网络通信技术,能分析网页结构(XPath/CSS选择器)。
了解反爬机制及应对方案(代理IP池、请求调度等)。
熟悉数据库(MySQL/MongoDB/Redis等)和大数据存储(HDFS、Kafka等)
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕