岗位职责:
1、研发与优化大模型算法:设计并实施大模型算法,提升训练效率和模型性能,包括预训练(Pretrain)、指令微调(SFT)、强化学习(RLHF)等子任务的全流程构建。
2、模型训练与调优:负责行业垂类大模型的训练、对齐、任务调优,优化模型在准确性、稳定性和推理速度方面的表现,解决梯度消失、过拟合等问题。
3、业务应用与场景落地:设计基于大模型的智能体架构,通过prompt工程、RAG技术或智能agent开发将AI agent应用于具体业务。
4、前沿技术探索与创新:研究多模态融合、分布式训练、模型压缩(如量化、剪枝)等前沿技术,推动算法在工业优化或跨学科领域的应用。
5、数据处理与部署支持:负责大规模数据清洗、分析和建模,搭建训练框架,并参与模型在云端或边缘设备的部署与维护。
任职要求:
1、学历与专业背景:计算机科学、人工智能、数学、电子工程或相关专业硕士及以上学历优先。
2、技术经验:具备深度学习领域(如NLP、计算机视觉)的实战经验,熟悉预训练模型(如LLaMA、GPT、千问等)的训练、微调和优化;有千亿级大模型项目经验者优先。
3、核心技能:精通Python编程,熟练掌握PyTorch、TensorFlow、Hugging Face等深度学习框架和工具链。掌握prompt工程、模型蒸馏、推理加速等技术,具备数据分析和建模能力。
4、熟悉Linux环境、分布式训练(如DeepSpeed)和CUDA/AMDRocom编程。
能力与素质:优秀的问题解决能力、文字表达和沟通技巧;良好的团队协作精神,能够带领团队高效推进项目;持续学习前沿技术(如AI Agent、多模态应用)。