职位详情
多模态感知大模型芯片算法优化专家
3.5-6.5万
进迭时空(杭州)科技有限公司
北京
5-10年
本科
01-30
工作地址

海淀新技术大厦8层815号

职位描述
职位描述
作为多模态感知大模型芯片算法优化专家,深入理解多模态大模型的计算特性与前沿演进,并与芯片架构师、编译器工程师紧密协作,主导完成从算法模型到芯片高效部署的全栈优化,确保芯片在目标场景下达到世界领先的能效比与性能。

核心职责
1.算法-芯片协同设计:
分析主流及前沿 多模态感知大模型(如视觉Transformer、多模态融合模块、3D稀疏卷积网络等) 的计算图、算子构成、数据流与内存访问模式。
识别模型中的计算瓶颈与内存瓶颈,提出面向芯片硬件特性的 算法级优化方案(如算子融合、图优化、稀疏化、低精度量化、动态计算)。
2.模型部署与极致优化:
主导多模态大模型在自研AI芯片上的 端到端部署、性能分析与调优。
开发和优化针对芯片特性的 核心算子库(Kernel), 支持模型的自动切图、调度、内存分配和量化感知训练。
3.前沿探索与方案落地:
跟踪多模态大模型的结构演进趋势(如MoE、注意力机制变体),评估其对芯片架构的影响,并提前布局优化方案。
探索 混合精度训练与推理(FP8/INT4/稀疏INT8)与硬件感知的模型轻量化 等技术的芯片落地路径。
将优化后的模型在真实业务场景(如车载实时感知系统)中集成、测试与迭代,确保精度-速度-功耗的完美平衡。

任职要求(必要条件)
教育背景:计算机科学、电子工程、人工智能等相关专业硕士或博士学历。
1.深厚的算法与硬件基础:
深刻理解 深度学习模型(尤其是Transformer、CNN)的计算原理与训练/推理流程。
熟悉 计算机体系结构,对CPU/GPU/NPU的微架构、内存子系统、并行计算有清晰认识。
2.丰富的优化实践经验:
3年以上AI模型在边缘设备或定制芯片上的部署与优化经验。
精通 C/C++ 和 Python,具备出色的高性能编程和调试能力。
熟练掌握至少一种主流深度学习框架(PyTorch, TensorFlow)及其模型优化工具(如TorchScript, ONNX, TensorRT, TVM, MLIR)。
有深入的 算子级优化经验(如CUDA/OpenCL编程, 或DSP/ARM NEON汇编优化)。
3.多模态模型理解:对视觉、激光雷达或多模态融合模型的常见结构(如BEVFormer, PointPillars, 多模态Transformer)有实际部署或优化经验。

优先考虑条件
有参与 AI芯片 的算法优化或工具链开发经验。
精通 模型量化(QAT/PTQ)、知识蒸馏、模型剪枝 等压缩技术,并有在芯片上成功量产部署的经验。
熟悉 自动驾驶或机器人 的完整感知系统,了解其端到端的数据流和实时性要求。
有基于 TVM/MLIR 等编译器框架进行AI模型编译与优化的实际项目经验。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请