职位描述
汇报对象:AI基础设施部技术总监
一、核心职责
推理框架开发——
1.参与基于FlashMLA的多头注意力解码器开发,优化变长序列处理效率
2.集成DeepGEMM FP8计算库,实现混合精度推理流水线搭建
性能调优实施——
1.分析Triton Inference Server日志,定位显存溢出及计算瓶颈问题
2.开发动态批处理系统
本地化部署支持——
1.适配昇腾等国产芯片
2.构建本地化模型仓库,通过3FS等方案实现模型加载速度提升
二、任职要求
1.基础条件
1)学历:计算机/电子工程本科及以上(优秀专科可放宽)
2)经验:3年开发经验,至少参与过1个完整项目落地
2.技术栈
1)熟练使用Python/C++开发工具链
2)掌握PyTorch模型导出与ONNX/TensorRT转换流程
3)熟悉CUDA基础编程,能调试简单GPU内核代码
3.优先条件
1)有vLLM/FasterTransformer框架二次开发经验
2)接触过MoE模型分布式推理架构
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕