职位描述
岗位职责:
1、负责大模型的架构设计与核心代码开发,提升生产效率和智能化水平;
2、主导模型训练的分布式架构设计,使用高效的并行计算技术(如数据并行、模型并行)提高训练效率;
3、深入研究大语言模型(如GPT系列、LLaMA、Transformer等)核心技术,并结合业务需求完成模型的定制化优化;
4、解决大规模训练中的性能优化问题,包括模型参数压缩(如量化、剪枝)、显存优化(如ZeRO优化、DeepSpeed)和推理加速;
5、实现和优化基于LangChain、RAG(检索增强生成)等框架的业务场景应用,确保高效的知识检索与动态生成能力;
6、负责核心代码开发,设计和实现训练与推理模块的核心算法与功能;
7、跟踪大模型领域的前沿技术动态,调研并引入最新的技术方法,推动创新和技术落地;
8、指导团队技术开发,解决技术难点,保障项目按时高质量交付。
任职要求:
1、本科及以上学历,计算机、人工智能等相关专业,3-5年以上算法工作经验,有模型项目落地经验。
2、熟练掌握 Pvthon、java 等常用编程语言之一,有良好的数据结构与算法基础、具备扎实的编程功底,熟悉 Git 代码管理。
3、精通大模型的核心技术,包括 Transformer 架构、预训练与微调技术、指令微调(SFT)、RLHF(基于人类反馈的强化学习)等。
4、熟悉分布式训练技术,掌握 Tensor Parallel、Pipeline Parallel等优化方法,能够处理大规模模型的多节点训练。
5、具备深度学习框架(如 PyTorch、TensorFlow)上的丰富开发经验,能够独立完成从模型设计到部署的全流程开发。
6、熟悉 GPU/TPU 加速技术、CUDA 编程,以及 DeepSpeed 等框架的高效训练与推理方法。
7、掌握基于向量检索的知识增强生成(RAG)技术,熟悉LangChain 等工具的应用与扩展。
8、优秀的代码开发能力,能够实现高质量、高性能的核心算法和模块,
9、能够协调和指导团队成员,解决技术瓶颈,推动项目进展。
加分项:
熟悉大模型在特定垂直领域(如电力)的应用场景。
具备多模态建模经验(如文本、图像、视频的联合建模)。
掌握矢量数据库(如 Pinecone、Weaviate)以及分布式存储技术的实际使用经验。
有较强的代码能力,有高质量的中大型项目或个人开源项目的经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕