职位概要:
负责设计并实现爬虫框架、规范及监控体系,对目标网站内容及附件数据进行采集。对采集数据和文档进行大模型提取的前处理以及后处理,确保数据入库的质量和效率。
岗位职责:
1.数据采集系统开发与维护:
(1)开发维护目标网站数据采集程序和框架(如强化版Scrapy),解决登录验证、令牌加密、IP/频率限制、验证码等复杂反爬挑战;
(2)建设和维护统一采集任务管理监控平台(调度、监控、报警、日志、自动补漏);
2.数据预处理与后处理:
(1)对原始数据和文档进行预处理,如自动化分类、格式转换、纠错等,满足大模型输入要求;
(2)对大模型输出数据使用算法或模型进行后处理,包括自动化校验与规范化;
3.数据入库和集成协作:
(1)与后端团队协作,设计和实现数据入库、任务调度和推送
任职资格:
1、本科以上学历,计算机、数学、数据科学、统计学相关专业优先。
2、5年以上工作经验,3年以上Python开发和数据处理经验,擅长数据采集(爬虫),熟悉大模型
技术核心:
1、精通Python 及生态,熟悉 pandas, numpy 等数据处理框架.
2、熟悉 Scrapy框架、Requests、BeautifulSoup/lxml
3、熟悉 MySQL/PostgreSQL、MongoDB、Redis 的操作、基础设计与SQL查询
4、熟悉Git的使用
5、熟悉Selenium、Playwright 或 Puppeteer等
6、(加分项)了解 rabbitmq, redis, celery 等分布式任务调度框架
7、(加分项)了解 python async 或多进程多线程高性能开发