3-3.5万
北京市-海淀区-复兴路17号(紧邻西长安街)8层
岗位职责:
1.负责设计和开发先进的大模型架构,包括但不限于基于 Transformer、图神经网络等前沿技术的架构,以满足自然语言处理、计算机视觉、多模态等领域的复杂应用需求;
2.根据项目需求和数据特点,进行技术选型,包括选择合适的神经网络层、激活函数、注意力机制等组件,优化模型的性能和效率;
3.建立和完善大模型的性能评估体系,使用多种评估指标(如准确率、召回率、F1 值、困惑度、BLEU 等)对模型进行全面评估;
4.根据评估结果,深入分析模型的瓶颈和问题,提出有效的改进方案,如调整模型架构、增加数据规模或改进数据质量等,持续提升模型性能;
5.编写详细的技术文档,包括模型架构图、设计思路、技术选型依据、训练和评估过程等,为模型的维护、改进和后续开发提供清晰的指导;
6.领导交办的其他工作。
任职资格:
1.计算机科学、数学、电子工程等相关专业硕士研究生以上学历。中共党员优先。
2.具有 7 年以上大模型架构设计或相关深度学习架构设计工作经验。
3.参与过至少两个以上大型的大模型项目,有从模型架构设计、训练到实际业务应用的完整流程经验。
4.精通 Python、C++ 等编程语言,熟练掌握常用的深度学习框架,如 TensorFlow、PyTorch 等。
5.深入理解各种深度学习模型架构,特别是大模型架构(如 GPT、BERT 等)的原理和设计思想。掌握模型压缩、量化、分布式训练等相关技术,能够对大模型进行性能优化和部署。
6.熟悉机器学习和深度学习的基本算法,有数据处理、特征工程和大规模数据训练的经验。了解数据结构和算法在大模型训练和优化中的应用,能够设计高效的数据处理流程。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕