职位详情
爬虫与数据工程师
1.2-1.8万
四川业亿辰科技有限公司
成都
5-10年
本科
06-21
工作地址

超图成都大厦1栋

职位描述
职位概要:
负责设计并实现爬虫框架、规范及监控体系,对目标网站内容及附件数据进行采集。对采集数据和文档进行大模型提取的前处理以及后处理,确保数据入库的质量和效率。

岗位职责:

1.数据采集系统开发与维护:

(1)开发维护目标网站数据采集程序和框架(如强化版Scrapy),解决登录验证、令牌加密、IP/频率限制、验证码等复杂反爬挑战;

(2)建设和维护统一采集任务管理监控平台(调度、监控、报警、日志、自动补漏);


2.数据预处理与后处理:

(1)对原始数据和文档进行预处理,如自动化分类、格式转换、纠错等,满足大模型输入要求;

(2)对大模型输出数据使用算法或模型进行后处理,包括自动化校验与规范化;


3.数据入库和集成协作:

(1)与后端团队协作,设计和实现数据入库、任务调度和推送

任职资格:
1、本科以上学历,计算机、数学、数据科学、统计学相关专业优先。
2、5年以上工作经验,3年以上Python开发和数据处理经验,擅长数据采集(爬虫),熟悉大模型
技术核心:
1、精通Python 及生态,熟悉 pandas, numpy 等数据处理框架.
2、熟悉 Scrapy框架、Requests、BeautifulSoup/lxml
3、熟悉 MySQL/PostgreSQL、MongoDB、Redis 的操作、基础设计与SQL查询
4、熟悉Git的使用
5、熟悉Selenium、Playwright 或 Puppeteer等
6、(加分项)了解 rabbitmq, redis, celery 等分布式任务调度框架
7、(加分项)了解 python async 或多进程多线程高性能开发

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请