职位详情
边端侧大模型推理框架部署优化高级工程师
3.5-6.5万
进迭时空(杭州)科技有限公司
北京
5-10年
本科
01-31
工作地址

海淀新技术大厦8层815号

职位描述
职位描述
作为边端侧大模型推理框架部署优化高级工程师,负责将亿级/十亿级参数的大模型(LLM, VLM, Audio LM)部署到终端芯片平台,并进行极致的性能与能效优化。需精通从模型压缩、核心算子优化到运行时内存管理的全栈技术,确保大模型在资源受限环境下,依然能提供流畅、稳定的智能服务。
核心职责
1. 端侧推理引擎深度定制与优化:
◦ 主导 vLLM、Ollama 等框架在 ARM CPU、NPU、GPU 等异构计算平台上的 移植、适配与深度优化。重点攻克 注意力机制、KV Cache管理、解码策略 在内存受限下的高效实现。
◦ 针对终端特性,深度优化或自研 高性能、低内存占用的推理运行时,核心优化方向包括:算子融合、计算图优化、静态内存规划、Zero-Copy数据流。
◦ 集成并优化 MLIR、TVM 等编译器栈,实现面向终端芯片的自动调度与代码生成,***化发挥专用加速器(NPU/DSP)性能。

2. 模型极限制压缩与适配:
◦ 推动并落地前沿的 端侧模型压缩技术,包括但不限于:4/8-bit权重量化(AWQ, GPTQ)、激活值动态量化、稀疏化、知识蒸馏、模型剪枝。在精度与性能间取得***平衡。
◦ 建立端侧模型的 自动化压缩-部署-评估流水线,快速迭代不同芯片平台上的最优模型变体。
◦ 与算法团队紧密合作,设计 硬件感知的端侧模型架构(如MobileLLM),从源头优化部署效率。
3. 系统集成与全栈性能调优:
◦ 将优化后的推理引擎无缝集成到终端操作系统中,处理复杂的多任务调度策略。
◦ 构建端到端的性能分析与调试工具链,从应用层、框架层到驱动层进行全栈性能剖析,定位瓶颈。
◦ 设计和实现 混合推理架构(如端-云协同、大模型小模型协同),在复杂场景下动态分配计算负载。

任职要求(必要条件)
1. 教育背景:计算机科学、电子工程、通信工程等相关专业本科及以上学历,硕士优先。
2. 深厚的嵌入式与AI系统经验:
◦ 5年以上 嵌入式系统、移动端或边缘侧AI应用开发与优化经验。
◦ 精通 C/C++ 和 Python,具备出色的嵌入式编程、性能调优和内存调试能力。
◦ 深入理解 ARM体系架构、内存管理、多线程编程、硬件中断与DMA。
3. 丰富的端侧AI部署经验:
◦ 熟悉至少一种主流端侧推理框架,并有深度优化经验。
◦ 对 Transformer 模型结构有清晰理解,有在端侧部署相关模型的实际项目经验。
◦ 熟悉 模型量化工具和流程。
4. 硬件与芯片理解:熟悉主流终端芯片平台(华为麒麟/昇腾、英伟达Orin/NX)的AI加速器(NPU/APU/GPU)架构与编程模型(如OpenCL)。
优先考虑条件
1. 有成功将 >1B参数 的大模型部署到汽车或机器人等终端设备并量产的完整经验。
2. 深入参与过 vLLM、Ollama、llama.cpp 等框架在ARM平台的优化或贡献代码。
3. 熟悉 TVM/MLIR 编译栈,并有为自定义硬件后端开发的经验。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请