任职资格:
1.本科及以上学历(研究生优先),计算机、数据科学、人工智能、软件、通信、自动化相关专业优先。
2.1年以上数据清洗/处理经验/大数据/算法工作经验,有LLM或NLP项目经验者优先,优秀25届应届生也可投递
3.具备非结构化数据处理经验,处理过大规模TB级数据,擅长代码编写
4.强烈的责任心与团队协作能力,适应快节奏技术迭代。
5.熟练使用Python及主流数据科学栈(NumPy、Pandas等),具备良好的代码规范与工程习惯;熟悉SQL及常见关系型/分布式数据库
6.熟悉主流分布式计算或分析框架(如Spark、Hadoop、Rav、Presto等),理解其核心原理与性能调优方法,能在其上开发或调优数据作业。
7.熟悉主流深度学习框架,并对其训练/微调流程有深刻理解,能清晰分析数据质量对模型性能的影响。
岗位职责:
1.负责大模型预训练数据的清洗、去噪与结构化处理,构建高质量语料库,支持模型训练需求。
2.设计并实现基于Python的高效数据处理Pipeline,优化数据预处理流程,提升数据质量。
3.擅长对接数据采集(上游)与模型训练(下游),制定数据规范、质量监控及闭环优化策略,确保数据-模型高效协同
4.构建数据自动化评估体系,研究自动化评估算法,能够高效评估无些督、有些督等各类数据质量,
5.追踪业界开源数据进展,清晰了解业界高质量数据构建体系方法,为星火大模型训练数据提供支持。
上班时间:朝九晚六,周末双休,节假日正常休
薪资:10-30K面试定薪+餐补300+交补150+年终奖
福利待遇:
1、入职五险一金、带薪假期、节日福利、年度体检;
2、食堂:提供丰富多样、健康美味的饮食选择;
3、健身房:免费健身房,在工作之余保持健康的身体状态;
4、图书馆:免费图书馆,丰富多样的图书资源和舒适的阅读环境;
5、公租房/租房补贴:符合政策的员工可申请公租房或租房补贴,减轻生活压力;
6、人才补贴:符合政策的员工可申请政府人才补贴,提高员工的福利待遇;
7、员工团建:不定期组织团建活动,在轻松愉悦的氛围中放松身心,增强团队凝聚力;
8、员工成长:提供多方位学习通道,包括系统化专业课程的在线学习平台、大咖分享、技术沙龙等;