工作内容
1. 客户技术支持: 负责 SDK 及开发环境(Standalone / Accelerator)的导入培训,协助客户熟悉软件架构。
2. 模型部署与调优: 解决模型在端侧部署时的推论(Inference)故障、编译错误及环境适配问题。
3. 量化与精度控制: 针对混合精度(Mixed Precision)与量化(Quantization)过程中的精度损失(Accuracy Loss)进行定位,指导客户进行量化感知训练(QAT)或后量化(PTQ)优化。
4. 性能分析与优化: 负责端侧 Benchmark 测试,针对 TPS (Transactions Per Second)、TTFT (Time To First Token)、FPS 等关键指针进行瓶颈分析与性能调教。
5. 疑难定位: 现场定位模型推论结果异常、内存泄漏、多线程冲突等涉及NPU与Slave端底层驱动(BSP)的技术问题。
职位要求:
1. 专业背景与经验
● 计算器、电子、自动化或人工智能相关专业,本科及以上学历。
● 2 年以上 AI 模型部署、优化或嵌入式开发经验(优秀应届生亦可考虑)。
● 熟悉端侧 AI 部署流程:训练(PyTorch/TensorFlow)→ 转换(ONNX/TFLite)→ 量化 → 部署(SDK/NPU)。
2. 技术能力(硬实力)
● 程序语言: 精通 C/C++ 与 Python,具备优秀的 Debug 能力。
● 模型推论: 熟悉主流推论框架(如 TensorRT, haliort, OpenVINO 或 SNPE 等)及底层软件架构。
● 量化技术: 理解对称/非对称量化、INT4/INT8/FP16/BF16 混合精度原理,能处理量化后的精度掉点问题。
● 性能优化: 熟悉性能 Profiling 工具,了解计算图优化、算子融合、内存布局优化等技术。
● 硬件环境: 了解嵌入式 Linux 系统,具备 Standalone 模式或 PCIe/M.2 Accelerator 模式下的开发经验(Docker / Yocto Linux)
有以下经验者优先:
● 具备大语言模型(LLM)端侧量化与加速经验者优先。
● 有 NPU/GPU等硬件加速器底层驱动或算子开发经验者优先。
● 在主流 AI 芯片平台有实际量产项目经验。