工作职责:
1、数据抓取与处理:
设计和开发高效的网络爬虫和数据抓取程序,从多种公开数据源获取所需信息。
解决抓取过程中遇到的反爬虫、动态渲染、验证码等复杂技术问题。
确保数据抓取过程的合法性、稳定性和效率。
2、数据清洗与入库:
对抓取和业务产生的原始数据进行清洗、去重、格式化、转换等ETL处理。
设计和维护合理的数据存储结构,将处理后的数据高效、准确地存入数据库或数据仓库。
保证数据质量和数据 pipeline 的可靠性。
任职要求:
1、精通 Python: 3年以上扎实的Python开发经验,深刻理解Pythonic编程思想,熟练掌握其核心库和常用框架(如 FastAPI、Django、Flask、Scrapy等)。
2、数据抓取专长: 精通Scrapy、Requests、BeautifulSoup、Selenium/Playwright等至少一种主流爬虫框架或工具,能应对各种复杂的抓取场景。
3、数据处理与存储: 熟练掌握Pandas、NumPy等数据处理库,并具备良好的SQL能力,熟悉至少一种主流数据库(如 MySQL、PostgreSQL、MongoDB等)。
4、综合能力: 具备优秀的问题解决能力、团队合作精神和良好的沟通能力。