职位描述
 岗位职责:
1、使用 Python 及相关生态库(如Scrapy, Requests, Selennium, Playwright等)设计、开发和维护稳定可靠的分布式爬虫系统, targeting 主流电商平台(如淘宝/天猫、京东、拼多多、抖音电商、小红书等)。
2、自动化辅助:在遇到复杂反爬策略(如验证码、行为检测、高强度加密)时,能够运用 影刀 或 AirTest 等RPA工具作为有效补充方案,构建混合型自动化采集流程,确保数据获取的成功率与稳定性。
3、数据处理:对原始数据进行清洗、去重、解析、转换和校验,利用 Pandas, NumPy 等工具进行数据治理,确保数据质量和可用性。
4、数据存储:将处理后的数据高效存储到数据库(如 MySQL, PostgreSQL, MongoDB, Redis 等)中,并进行合理的表结构设计和索引优化。
5、运维监控:维护数据采集流程的日常稳定运行,编写监控脚本,及时排查和解决因平台策略变更、系统环境等问题导致的故障。
6、技术文档:撰写清晰的技术设计、流程说明及API文档,保证代码和项目的可维护性。
岗位要求:
1、本科及以上学历,计算机相关专业,3-5年以上Python开发经验。
2、精通Python编程,有扎实的编程基础,熟悉常用数据结构、算法和设计模式。
3、具备丰富的网络爬虫开发经验,熟练掌握至少一种主流爬虫框架(如Scrapy),能独立处理常见反爬机制。
4、有RPA工具(如 影刀、AirTest、UiPath等)的实际项目应用经验,理解其与代码开发的互补关系。
5、熟练掌握数据清洗和分析的常用库,如 Pandas。
6、熟悉数据库技术,能熟练编写和优化SQL语句,有MySQL等关系型数据库的使用和设计经验。
7、熟悉Web前端基础(HTML, CSS, JavaScript, Ajax)和网络协议(HTTP/HTTPS),精通浏览器开发者工具的使用。
  以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕