职位描述
职位职责
负责大模型数据的进行收集、获取、预处理、挖掘等工作。
整合海量多维数据,进行全站数据挖掘,构建数据画像体系、数据知识体系,并搭建全站核心数据资产管理平台。
针对不同的模型算法的特点,设计和实现相应的数据处理流程,优化模型训练效果。
负责应用各种机器学习、深度学习等工具,对训练的数据质量的筛选。
负责大模型训练数据的存储、管理和备份,确保数据的安全可靠。
任职资格
本科及以上学历,5年以上开发经验,计算机、数学统计大数据等相关专业。
熟练掌握python、shell、SQL 等语言,具有一定数据特征经验。
了解NLP大语言模型基础知识,熟悉传统的的机器学习与深度学习技术。
较强的沟通能力和逻辑表达能力,
具备良好的团队合作精神和主动沟通意识
具备良好的数据分析能力与逻辑思维能力,能够独立的解决问题。
了解的大数据存储与处理技术,如:HIVE,spark,有数据清洗经验优先。
有爬虫经验的优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕