职位详情
AI模型量化与部署工程师
2.2-2.8万
中创实(北京)科技有限公司
北京
3-5年
硕士
11-05
工作地址

北京市朝阳区霞光里15号霄云中心B座2505

职位描述
【职位描述】
1. 负责公司全栈AI模型(包括CV模型、大语言模型、多模态模型)的性能优化与部署。
2. 针对云端(NVIDIA GPU)、边缘端(NVIDIA Jetson, 华为Atlas)和移动端等不同硬件平台,进行高效的模型量化(PTQ/QAT)、剪枝、蒸馏和编译。
3. 深入研究和应用TensorRT, OpenVINO, TVM, ONNX Runtime等高性能推理引擎,开发和维护公司统一的推理服务。
4. 针对NPU等特定硬件,利用厂商工具链(如华为CANN)进行深度算子优化和模型适配。
5. 与算法工程师(CV和大模型)紧密合作,在模型设计和训练阶段介入优化(Training-Aware Optimization),平衡模型精度与推理速度/能耗。
6. 构建和维护模型性能的Benchmark系统,提供精准的延迟、吞吐量和资源(显存、功耗)评估报告,指导算法选型和资源配置。
【岗位要求】
1. 计算机科学、电子工程、自动化等相关专业,硕士及以上学历。
2. 精通Python和C++,具备扎实的软件工程和算法基础。
3. 深入理解深度学习模型(特别是CNN和Transformer)的计算原理和计算机体系结构。
4. 具有丰富的模型优化经验,熟练掌握至少一种推理引擎(如TensorRT, TVM)和模型量化技术。
5. 具有NVIDIA Jetson、华为Atlas或其他嵌入式NPU的实际部署和优化经验者优先。
6. 具备优秀的解决问题能力,能熟练阅读英文技术文档和论文,并快速跟进SOTA的部署和优化技术。
7. 有大模型(LLM)量化和部署经验者(如vLLM, TensorRT-LLM)优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请