1、 负责开发用于承载大模型的高效训练、推理平台,并结合特点进行算法与实现的优化;
2、负责大模型(CV、NLP、多模态等方向)技术方案的实现和效果评估,跟进前沿AI大模型研究与效果性能调优;
3、推进分布式训练中的计算和通信优化,充分利用算力,使用大量加速卡探索性能边界;
4、打破模型的参数限制,训练百亿、千亿参数量级别的超大模型
岗位要求:
1、熟悉Linux开发环境,至少掌握Python、Java、C++等开发语言中的一种,熟悉Pytorch/TensorFlow/MindSpore/huggingface中的一种;
2、数学基础扎实,熟悉深度学习与分布式算法,能够清晰理解算法基本原理及实现方法,有大规模分布式算法相关开发经验者优先;
3、有过深度学习平台开发或大模型开发相关经验者优先。