一、岗位职责:
• 1、负责大语言模型、多模态大模型等算法,具体工作包括设计并训练大模型,确保高效收敛与稳定性能;优化模型压缩与加速,提升推理效率;微调与对齐模型,增强场景适配性与安全性;跟踪前沿技术,推动算法创新与应用落地。
• 2、核心算法开发、核心算法在国产化平台的适配、系统测试与部署等。
• 3、软件产品的技术需求分析,撰写需求分析、设计规格、技术总结报告等相关报告。
二、任职要求:
• 1、硕士及以上学历,计算机科学、人工智能、数学、物理等相关专业。
• 2、熟练掌握线性代数、概率论、随机过程、优化理论、信息论等基础数学知识,能够运用数学知识独立推导大模型训练过程中的复杂公式。
• 3、深入理解深度学习基本原理,包括神经网络结构、反向传播算法、梯度下降优化方法等,熟悉大模型预训练、微调、对齐等阶段的理论依据和关键技术。
• 4、精通Python,能够高效编写复杂的数据处理和模型训练代码,熟悉常用的Python库。
• 5、熟练使用至少一种深度学习框架(PyTorch、MindSpore、PaddlePaddle),能够基于框架进行大模型的搭建、训练和调试。
• 6、熟悉分布式训练框架(如DeepSpeed、Megatron-LM、Horovod等),能够进行大规模模型的分布式训练优化。
• 7、具备从0到1训练和微调大模型的经验,熟悉大模型训练的全流程,包括数据准备、模型设计、训练策略制定、超参数调优等。
• 8、掌握大模型优化技术,包括模型压缩(量化、剪枝、蒸馏)、高性能推理(如使用TensorRT、ONNX Runtime等)、模型并行和数据并行策略等。