职位描述
职位描述
1. 负责构建和管理支撑大语言及多模态模型训练的数据基础设施,确保数据的质量和可用性,支持复杂的数据分析和模型训练任务;
2. 负责建立完善的大模型评估体系,提供标准化的模型评估能力,建立完善测评数据集;
3. 参与收集、处理、清洗各种渠道的原始数据,包括但不限于网页数据、多模态数据、企业私有数据等;
4. 开发数据清洗、转换和加载(ETL)流程,以支持模型训练和评估;
5. 设计和实现数据存储、处理和分析的解决方案,优化数据管道的性能,确保数据流的高效和稳定;
6. 与产品及研发团队密切合作,建立数据系统迭代流程。
职位要求
1. 计算机科学、人工智能等相关领域本科及以上学历;
2. 有数据工程或相关领域的工作经验,具备一定的机器学习算法基础,了解大模型训练、RL算法者优先;
3. 熟练掌握大数据技术栈,包括Hadoop、Spark、Kafka等,有使用数据库(如SQL、NoSQL)和数据仓库的经验;
4. 熟练掌握Python和Java编程,熟悉pandas,numpy,sklearn等常用数据分析库;
5. 有大模型数据收集与清洗、数据质量评估经验者优先;
6. 具备出色的问题解决能力和分析能力,具有良好的沟通能力和团队合作精神。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕