1.负责大模型预训练数据的清洗、去噪与结构化处理,构建高质量语料库,支持模型训练需求:
2.设计并实现基于Python的高效数据处理Pipeline,优化数
据预处理流程,提升数据质量;
3.擅长对接数据采集(上游)与模型训练(下游),制定数据规范、质量监控及闭环优化策略,确保数据-模型高效协同
岗位要求:
1.研究生及以上学历,计算机、数据科学、人工智能相关
专业;2.一年以上数据清洗/处理经验,有LLM或NLP项目经验者
优先;
3.具备良好的数据敏感度,能独立解决复杂数据问题;4.强烈的责任心与团队协作能力,适应快节奏技术迭代,