职位详情
python数据开发工程师 已下线
1.5-2.5万
北京精医和生医药科技有限公司
杭州
3-5年
本科
08-16
工作地址

云狐科技园6号楼505

职位描述

岗位职责:


1. 负责大模型(LLM)预训练、微调和对齐阶段的数据处理工作(文本、语音、视频),包括数据收集、清洗、去重、标注、格式转换及质量评估。


2.搭建大型的数据平台,支持模型开发全周期的数据需求和数据处理;分析数据分布特征,识别并解决数据偏差、噪声等问题,确保训练数据的多样性和高质量


3.开发自动化数据处理工具与脚本,优化数据清洗、标注及质量评估的效率和规模化能力


4.负责海量数据的爬取、清洗、解析、处理、存储


5.与算法团队和数据标注专家紧密协作,根据模型训练需求定制数据策略,提升预训练效果


6.研究和开发AI智能体技术,包括智能体的设计、实现和优化,以支持大模型在各种应用场景下的数据处理需求



任职要求:


1.计算机科学、人工智能、数学、统计学相关专业本科及以上学历


2.具有构造大模型预训练和SFT数据的实战经验,能够针对特定领域或任务构建对应高质量SFT数据,设计和执行复杂的数据管道,以支持大规模数据集的自动化处理和标注


3.掌握Python及主流数据处理工具库,理解数据清洗技术;熟悉数据质量评估指标(如多样性、信息熵、毒性检测)及统计分析工具


4.深入了解AI智能体技术和框架(如Langchain、Autogen),包括感知、决策、执行等模块的设计和实现。


5.熟悉Scrapy、Selenium、Playwright等爬虫框架,分布式爬虫架构(如Scrapy-Redis、Kafka+Celery)具备开发大规模数据爬取系统的经验


6.熟悉多项大数据处理相关的框架(Spark、Flink、Ray、数据湖)优先


7.有医疗数据处理相关经验者优先,发表过数据处理相关顶会论文,或参与过开源项目者优先


以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

查看更多相似职位