职位描述:
1、模型架构设计:理解业务场景,参考前沿技术,设计适配的大模型架构,对开源模型按需评估、优化,开发符合场景需求模型。
2、模型开发:运用主流深度学习框架(如 TensorFlow、PyTorch 等),承担大模型核心编码,搭建神经网络,开发从数据处理到分布式训练流程,保障模型稳定训练。
3、场景优化:协同业务团队,依据数据特性优化模型,运用量化、剪枝等手段,平衡精度与成本,适配不同部署环境。
4、项目推进:作为技术主力,规划项目,协调算法、数据、工程团队,对接上下游,推动模型落地应用。
5、技术探索:关注前沿动态,调研新技术,参与开源交流,为团队引入创新点。
任职要求:
1、教育背景:本科及以上学历,计算机、人工智能等相关专业。
2、专业技能 :熟练掌握至少一种深度学习框架,有 1 - 2 年神经网络开发经验,了解常见模型架构优化方法,能搭建、训练模型。熟悉大规模数据处理基础,了解分布式训练,掌握 Python 等编程语言,能利用 GPU 资源训练模型。
3、问题解决能力:能分析解决模型训练中的常见问题,如收敛困难、过拟合,有模型优化相关经验,能应对业务场景挑战。
4、团队协作:具备团队协作精神,能与多团队沟通协作,理解业务需求,助力项目落地。
5、学习能力:热爱学习新技术,能紧跟大模型发展趋势,探索应用于实际项目。
加分项:
1、发表过大模型相关论文或技术文章者优先。
2、参与过开源项目者优先。
3、有跨模态模型开发经验优先。
4、了解特定行业知识并参与过相关项目优先。