职位描述
【岗位职责】
1、负责网络资源的搜集、抽取、清洗、去重、分类及过滤,构建高质量的数据资源库;
2、根据业务需求,设计并实现高效的数据采集方案,确保数据的实时性和准确性;
3、协助业务部门进行数据的更新与维护,提供数据支持及解决方案;
4、优化采集脚本,提升数据采集效率,解决采集过程中的反爬虫策略问题;
5、参与数据采集工具的开发以及成品数据集的制作。
【任职要求】
1、统招本科及以上学历,计算机、电子信息、软件工程等相关专业;
2、熟练掌握Python编程语言,具备扎实的编程基础,熟悉正则表达式、XPATH、requests等技术;
3、熟悉Web前端技术,包括HTML、HTTP、JavaScript、JSON等,能够处理动态网页数据;
4、掌握常用数据库操作,mongodb,mysql等
5、了解Linux开发环境,掌握基本shell命令,具备linux部署的能力;
6、有爬虫类项目经验优先,熟悉常用的爬虫框架(如Scrapy、自动化等);
7、具备网络资源搜集、信息抽取、文本分类等相关经验者优先;
8、具备良好的沟通能力和团队协作精神,能够独立解决问题并承担工作压力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕