职位描述
我们正在寻找一位对大型语言模型(LLM)充满热情并具备深厚技术实力的开发工程师。您将深度参与公司大模型的训练、优化与部署全流程,致力于提升模型在特定领域的性能与推理效率,解决实际业务场景中的挑战。
核心职责
1. 模型训练与微调:
◦ 负责大模型的增量预训练(Continued Pre-training),利用领域数据提升模型的基础知识水平。
◦ 负责基于高效微调技术(如LoRA, QLoRA, P-Tuning等)对模型进行指令微调(SFT),以适应下游特定任务。
◦ 探索和实验新的训练技术和策略,以持续提升模型效果和训练效率。
2. 推理优化与部署:
◦ 负责大模型的推理性能优化,显著降低响应延迟和计算成本。
◦ 优先要求:具备PD(Prefill-Decode)分离推理架构的实际项目经验,能够实现并优化该架构下的动态批处理、连续批处理(Continuous Batching)等关键技术。
◦ 熟悉并使用主流推理优化框架(如vLLM, TensorRT-LLM, TGI等)进行模型部署和加速。
◦ 实施模型量化(INT4/AWQ/GPTQ等)、模型压缩、KV-Cache优化等技术。
任职要求
1. 学历与经验:计算机科学、人工智能、数学或相关专业本科及以上学历,具备2年及以上大模型相关研发经验。
2. 技术栈:
◦ 熟练掌握PyTorch深度学习框架,具有扎实的Python编程能力。
◦ 深入理解并具备增量预训练和高效参数微调(PEFT) 的实战经验,能独立完成整个训练流程。
◦ 熟悉Transformer模型原理,以及主流大模型(如LLaMA, ChatGLM, Qwen等)的结构。
◦ 优秀的分析问题和解决问题的能力,对攻克技术难题充满激情。
优先考虑:
1. 具有PD分离推理优化、连续批处理(如vLLM的实现)等项目的实际开发经验者优先。
2. 有使用Deepspeed, FSDP等进行分布式训练经验者优先。
3. 有在华为昇腾算力环境下的实际训推工作经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕