6000-10000元
广西壮族自治区疾病预防控制中心南宁市青秀区金洲路18-1号疾控中心小区1栋B单元3103室
【岗位职责】
1、系统设计与开发:运维现有的系统,编写高效的Python爬虫脚本,从指定的公开网站、API接口、APP、微信公号等渠道,自动化抓取多源数据;
2、数据处理与清洗: 对爬取到的原始数据进行清洗、去重、格式化、转换和集成,确保数据的准确性和一致性,使其满足报告研究人员的使用;
3、技术难题攻坚: 解决爬取过程中遇到的各种技术挑战,包括但不限于动态渲染(JS)、验证码识别、IP封禁、API限制等。
4、质量与效率: 建立数据质量监控体系,持续优化爬虫策略和系统架构,提升数据采集的覆盖度、及时性和效率。
5、合规与伦理: 严格遵守Robots协议、数据安全法与版权法规,确保所有数据采集活动的合法合规性。
【技术要求】
1、精通 Python 编程语言,熟练使用Python、Java、php语言,掌握 Scrapy, Requests, Selenium/Playwright 等主流爬虫框架和工具。
2、深刻理解HTTP/HTTPS协议,熟悉Web前端技术(HTML, CSS, JavaScript)。
3、具备处理复杂反爬机制(如IP速率限制、验证码、动态加载、用户行为检测、加密参数等)的实战经验。
4、熟悉至少一种数据库(如 MySQL, PostgreSQL, MongoDB, Redis)。
5、具备优秀的数据清洗和处理能力,熟悉 Pandas, NumPy 等工具。
6、了解分布式爬虫原理,有使用 Scrapy-Redis, Celery 等工具的经验。
工作地点:南宁市青秀区金洲路18-1号疾控中心小区1栋B单元3103室
总部地址:北京市西城区天桥南大街1号天桥艺术大厦B1-104室
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕