职位描述
工作职责:
1、参数代码模型数据清洗方面的工作,包括收集、整理与清洗等内容,持续优化数据质量 2、参数代码模型数据合成方面的工作,包括预训练数据、后训练数据、验证沙盒等内容 3、参与代码模型预训练验证相关工作,对数据配比、数据调度等方向进行优化 4、参与代码模型后训练对齐相关工作,包括指令微调、强化学习方面的内容
任职要求:
精通NLP相关技术,例如Transformer架构、Megatron和DeepSpeed等大模型训练框架; 具有大模型训练数据处理经验; 熟悉数据清洗、增强和合成技术; 熟练掌握Python编程,具备良好的代码风格和工程能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕